Ответы на 5 основных вопросов на собеседовании по Data Science

Отправляясь на следующее собеседование по науке о данных, убедитесь, что знаете ответы на эти 5 основных вопросов собеседования.

В чем разница между обучением с учителем и обучением без учителя?
Обучение с учителем и обучение без учителя - две основные категории машинного обучения. Основное различие между ними состоит в том, что в контролируемом обучении есть целевая переменная или известный результат, который нужно предсказать, тогда как в неконтролируемом обучении нет. По этой причине данные для обучения с учителем называются маркированными, а данные для обучения без учителя - без меток. Предположим, например, вы работаете с набором данных об избирателях, включая почтовый индекс, доход, размер домохозяйства, регистрацию партии и голосовал ли человек на последних выборах. Вы можете построить модель контролируемого обучения, чтобы предсказать, проголосовал ли человек на последних выборах из всех (или некоторых) других функций. В качестве альтернативы вы можете построить модель обучения без учителя со всеми (или некоторыми из) функциями для генерации новой информации об избирателях, например, создание кластеров по типу избирателя.
Что такое проверка гипотез?
Проверка гипотез - это тип статистического вывода; Другими словами, это инструмент для сбора информации об образце, чтобы сделать суждение о соответствующей совокупности. При проверке гипотез гипотеза, которую вы проверяете, называется нулевой гипотезой, и в большинстве случаев это просто идея о том, что ничего не произошло. Прекрасная аналогия - это система уголовного правосудия США: «невиновен, пока вина не будет доказана». Другой вариант - это альтернативная гипотеза, «виноват», если хотите; это идея, что что-то произошло. Нулевая и альтернативная гипотезы будут выглядеть по-разному в зависимости от типа проверки гипотез, но, чтобы привести пример, мы могли бы сказать, что нулевая гипотеза заключается в том, что нет никакой разницы в среднем росте людей, живущих в Калифорнии, по сравнению со средним ростом. людей, живущих в Нью-Йорке. В этом случае альтернативная гипотеза состоит в том, что есть разница. Каждый тип проверки гипотез будет выглядеть немного по-разному, но результатом всегда будет p -значение или вероятность того, что вы получили бы свои данные (или более экстремальные данные), если бы нулевая гипотеза была верна. . Обычно для значения p используется порог 0,05. Если результатом проверки гипотезы, сравнивающей средние высоты в Калифорнии и Нью-Йорке, является p -значение 0,1, это означает, что существует 10% -ная вероятность получить данные как экстремальные или более высокие, если предположить, что есть нет разницы в росте населения. Это не так уж и редко, чтобы сделать вывод о разнице в среднем росте населения Калифорнии и Нью-Йорка. С другой стороны, если результатом проверки гипотезы является p -значение 0,02, то только 2% данных являются экстремальными или более высокими (при условии, что нет разницы в росте населения). ), поэтому мы можем заключить, что существует статистически значимая разница в средних высотах в популяциях Калифорнии и Нью-Йорка.
Почему так важно иметь данные обучения и тестирования?
При создании и оценке модели обучения с учителем важно иметь как данные обучения, так и данные тестирования. В обучении с учителем первая большая идея - использовать некоторые данные для обучения шаблонам моделей. Модель изучает эти шаблоны на основе этого набора данных, данных обучения. Но общая цель не в том, чтобы построить лучшую модель на основе известной информации; это создание модели, которая может брать новые или невидимые данные и делать прогнозы на основе ранее изученных шаблонов. Эти новые данные являются тестовыми данными. Короче говоря, модели нужны данные поезда для изучения и построения шаблонов, а тестовые данные необходимы, чтобы увидеть, насколько хорошо модель делает прогнозы на основе новых данных.
Опишите компромисс между смещением и дисперсией.
Компромисс смещения и дисперсии - это явление, которое следует учитывать при построении и оценке моделей контролируемого обучения. Смещение - это показатель того, насколько плохо модель предсказывает цель. Дисперсия - это показатель того, насколько плохо модель обобщает новые данные. Компромисс смещения и дисперсии заключается в том, что при низком смещении дисперсия высока, а при высоком смещении дисперсия низкая. Когда систематическая ошибка низка, а дисперсия высока, модель настолько хорошо справляется с предсказанием видимых данных, что она не соответствует этим данным и не может хорошо реагировать на новую информацию. На другой стороне спектра, когда систематическая ошибка высока, а дисперсия низкая, модель плохо предсказывает цель и является настолько общей (то есть недостаточно подходящей), что работает примерно так же с невидимыми данными. В идеале, модель находится в «золотом пятне» компромисса смещения и дисперсии, и ее нельзя слишком переобучать или недооценивать.
Что такое чувствительность и как ее вычислить?
Чувствительность - это показатель, который можно использовать для оценки модели двоичной классификации. Например, предположим, что у вас есть модель, которая предсказывает, есть ли у кого-то рак, на основе ряда характеристик. Если мы считаем, что положительный класс - это тот, кто болен раком, а отрицательный класс - это тот, кто не болен раком, тогда наша модель, правильно предсказывающая, что у кого-то рак, является истинно положительным, а наша модель, правильно предсказывающая, что у кого-то нет рака, является истинно отрицательной. Если модель предсказывает, что у кого-то есть рак, но этого нет, это ложноположительная ошибка или ошибка типа I. Если модель предсказывает, что у кого-то нет рака, но он есть, это ложноотрицательный результат или ошибка типа II. В этом случае ложноотрицательный результат намного хуже, потому что этот человек не сможет получить лечение. Чтобы свести к минимуму количество ложноотрицательных результатов в модели, мы хотели бы оптимизировать чувствительность или коэффициент истинных положительных результатов модели (также иногда называемый «отзыв»). Чувствительность - это отношение истинных положительных результатов ко всем положительным результатам; Другими словами, чувствительность - это истинно положительные результаты, деленные на сумму истинно положительных и ложно отрицательных результатов. Например, если бы у нас было 90 истинно положительных случаев и 10 ложноотрицательных случаев, у нас была бы чувствительность 0,9.

С какими еще вопросами на собеседовании по науке о данных вы сталкивались? Добавьте их ниже. Удачного собеседования!

Ответы на 5 основных вопросов на собеседовании по Data Science

Вопросы по теме