Итак, я нашел этого замечательного блоггера Вимарш Карбхари, и у него в блоге есть несколько замечательных материалов! Так что, пожалуйста, посмотрите на него, ведь он создатель Acing AI. И сегодня я попытаюсь ответить на его вопрос в интервью Uber AI из этого блога. И обратите внимание, что мое решение не будет оптимизировано.

Кроме того, я не буду отвечать на вопросы в числовом порядке. И на каждый вопрос я постараюсь найти правильный ответ и связать их. Однако я всегда открыт для обучения и развития, поэтому, если вы знаете более оптимальное решение, оставьте комментарий ниже.

Опишите двоичную классификацию

Я бы описал это так, как если бы у нас было два класса помеченных данных, например, класс Z, а не Z. И мы хотим предсказать, принадлежат ли данные к определенному классу или нет. (В этом случае класс Z)

Ответ Wiki: «Бинарная или биномиальная классификация - это задача классификации элементов данного набора на две группы (предсказание, к какой группе принадлежит каждый из них) на основе правила классификации».

Объясните логистическую регрессию, предположения и математические уравнения

Я не знаю, что означает вопрос под объяснением предположений. Но я попробую сделать два других. Что касается меня, я бы описал логистическую регрессию как прогноз в дискретных значениях (например, кошка против собаки), а не как непрерывное значение (например, ценообразование на жилье). Что касается математического уравнения, я думаю, что вопрос заключается в уравнении логистической регрессии.

Ответ Wiki: В« статистике , логистической регрессии, или логит-регрессии, или логит-модели [1] - это регрессия модель, в которой зависимая переменная (DV) является категориальной »
Чтобы узнать о предположениях для логистической регрессии, посетите этот веб-сайт .

Как работает кеширование и как вы его используете в науке о данных?

Я понимаю кеширование - это временное хранение данных для более быстрого доступа. Однако эти данные не сохраняются и удаляются. Я не уверен, как эта технология работает под капотом, я знаю только общий вид. Я думаю, что этот блог от Netflix может быть ответом на вопрос, как его можно использовать в науке о данных.

По сути, в Netflix они могут предсказать, какой контент будет самым популярным (или востребованным), чтобы оптимизировать потоковую передачу. Для Uber это могут быть места, где спрос на автомобили будет самым высоким, чтобы оптимизировать удовлетворенность клиентов.

Что такое методы обнаружения аномалий?

Я думаю, что кластеризация данного набора данных может выявить выбросы, или простой способ взять стандартное отклонение и посмотреть, какие точки данных находятся за пределами диапазона, также может сработать.

Ответ из Интернета: Этот блог прекрасно объясняет эти вопросы.

Как вы используете A / B-тестирование?

Мои знания об A / B-тестировании очень ограничены, так как я могу думать только о медицинских условиях. В тех случаях, когда одной группе пациентов дают лекарство, а другой группе - нет. Затем мы пытаемся увидеть разницу между ними, вовлекая их в какую-либо деятельность.

Ответ Wiki: В веб-аналитике A / B-тестирование (bucket-тесты или раздельное тестирование) - это управляемый эксперимент с двумя вариантами, A и B. (Однако я считаю, что A / B-тестирование используется во всех отраслях.)

Этот пост в блоге - отличный ответ на пошаговое объяснение A / B-тестирования.

Интерактивный код

Для Google Colab вам потребуется учетная запись Google для просмотра кодов, а также вы не можете запускать сценарии только для чтения в Google Colab, поэтому сделайте копию на своем игровом поле. Наконец, я никогда не буду спрашивать разрешения на доступ к вашим файлам на Google Диске, просто к сведению. Удачного кодирования!

Чтобы получить доступ к коду в Google Colab, пожалуйста, нажмите здесь.

Заключительные слова

Задавая эти вопросы, я становлюсь более скромным, осознавая тот факт, что знаю очень мало. Мне еще предстоит много работы, чтобы стать экспертом в Data Science.

Если будут обнаружены какие-либо ошибки, напишите мне на [email protected], если вы хотите увидеть список всех моих писем, пожалуйста, просмотрите мой сайт здесь.

Тем временем подпишитесь на меня в моем твиттере здесь и посетите мой веб-сайт или мой канал Youtube для получения дополнительной информации. Я также сделал сравнение Decoupled Neural Network здесь, если вам интересно.

Ссылка

  1. Бинарная классификация. (2018). En.wikipedia.org. Получено 6 апреля 2018 г. с сайта https://en.wikipedia.org/wiki/Binary_classification.
  2. Пример линейной регрессии - документация scikit-learn 0.19.1. (2018). Scikit-learn.org. Получено 6 апреля 2018 г. с сайта http://scikit-learn.org/stable/auto_examples/linear_model/plot_ols.html.
  3. Логистическая регрессия. (2018). En.wikipedia.org. Получено 6 апреля 2018 г. с сайта https://en.wikipedia.org/wiki/Logistic_regression.
  4. (2018). Stat.cmu.edu. Получено 6 апреля 2018 г. с сайта http://www.stat.cmu.edu/~cshalizi/uADA/12/lectures/ch12.pdf.
  5. (2018). Statisticssolutions.com. Получено 6 апреля 2018 г. с сайта http://www.statisticssolutions.com/wp-content/uploads/wp-post-to-pdf-enhanced-cache/1/assumings-of-logistic-regression.pdf.
  6. Как наука о данных помогает распространять контент Netflix по всему миру. (2017). Середина. Получено 6 апреля 2018 г. с сайта https://medium.com/netflix-techblog/how-data-science-helps-power-worldwide-delivery-of-netflix-content-bac55800f9a7
  7. Что такое кеш (вычисление)? - Определение с сайта WhatIs.com. (2018). SearchStorage. Получено 6 апреля 2018 г. с сайта https://searchstorage.techtarget.com/definition/cache.
  8. A / B-тестирование. (2018). En.wikipedia.org. Получено 6 апреля 2018 г. с сайта https://en.wikipedia.org/wiki/A/B_testing.
  9. AB-тестирование - полное руководство. (2018). Веб-сайт. Получено 6 апреля 2018 г. с https://vwo.com/ab-testing/.