Отправляясь на следующее собеседование по науке о данных, убедитесь, что знаете ответы на эти 5 основных вопросов собеседования.
- В чем разница между обучением с учителем и обучением без учителя?
Обучение с учителем и обучение без учителя - две основные категории машинного обучения. Основное различие между ними состоит в том, что в контролируемом обучении есть целевая переменная или известный результат, который нужно предсказать, тогда как в неконтролируемом обучении нет. По этой причине данные для обучения с учителем называются маркированными, а данные для обучения без учителя - без меток. Предположим, например, вы работаете с набором данных об избирателях, включая почтовый индекс, доход, размер домохозяйства, регистрацию партии и голосовал ли человек на последних выборах. Вы можете построить модель контролируемого обучения, чтобы предсказать, проголосовал ли человек на последних выборах из всех (или некоторых) других функций. В качестве альтернативы вы можете построить модель обучения без учителя со всеми (или некоторыми из) функциями для генерации новой информации об избирателях, например, создание кластеров по типу избирателя. - Что такое проверка гипотез?
Проверка гипотез - это тип статистического вывода; Другими словами, это инструмент для сбора информации об образце, чтобы сделать суждение о соответствующей совокупности. При проверке гипотез гипотеза, которую вы проверяете, называется нулевой гипотезой, и в большинстве случаев это просто идея о том, что ничего не произошло. Прекрасная аналогия - это система уголовного правосудия США: «невиновен, пока вина не будет доказана». Другой вариант - это альтернативная гипотеза, «виноват», если хотите; это идея, что что-то произошло. Нулевая и альтернативная гипотезы будут выглядеть по-разному в зависимости от типа проверки гипотез, но, чтобы привести пример, мы могли бы сказать, что нулевая гипотеза заключается в том, что нет никакой разницы в среднем росте людей, живущих в Калифорнии, по сравнению со средним ростом. людей, живущих в Нью-Йорке. В этом случае альтернативная гипотеза состоит в том, что есть разница. Каждый тип проверки гипотез будет выглядеть немного по-разному, но результатом всегда будет p -значение или вероятность того, что вы получили бы свои данные (или более экстремальные данные), если бы нулевая гипотеза была верна. . Обычно для значения p используется порог 0,05. Если результатом проверки гипотезы, сравнивающей средние высоты в Калифорнии и Нью-Йорке, является p -значение 0,1, это означает, что существует 10% -ная вероятность получить данные как экстремальные или более высокие, если предположить, что есть нет разницы в росте населения. Это не так уж и редко, чтобы сделать вывод о разнице в среднем росте населения Калифорнии и Нью-Йорка. С другой стороны, если результатом проверки гипотезы является p -значение 0,02, то только 2% данных являются экстремальными или более высокими (при условии, что нет разницы в росте населения). ), поэтому мы можем заключить, что существует статистически значимая разница в средних высотах в популяциях Калифорнии и Нью-Йорка. - Почему так важно иметь данные обучения и тестирования?
При создании и оценке модели обучения с учителем важно иметь как данные обучения, так и данные тестирования. В обучении с учителем первая большая идея - использовать некоторые данные для обучения шаблонам моделей. Модель изучает эти шаблоны на основе этого набора данных, данных обучения. Но общая цель не в том, чтобы построить лучшую модель на основе известной информации; это создание модели, которая может брать новые или невидимые данные и делать прогнозы на основе ранее изученных шаблонов. Эти новые данные являются тестовыми данными. Короче говоря, модели нужны данные поезда для изучения и построения шаблонов, а тестовые данные необходимы, чтобы увидеть, насколько хорошо модель делает прогнозы на основе новых данных. - Опишите компромисс между смещением и дисперсией.
Компромисс смещения и дисперсии - это явление, которое следует учитывать при построении и оценке моделей контролируемого обучения. Смещение - это показатель того, насколько плохо модель предсказывает цель. Дисперсия - это показатель того, насколько плохо модель обобщает новые данные. Компромисс смещения и дисперсии заключается в том, что при низком смещении дисперсия высока, а при высоком смещении дисперсия низкая. Когда систематическая ошибка низка, а дисперсия высока, модель настолько хорошо справляется с предсказанием видимых данных, что она не соответствует этим данным и не может хорошо реагировать на новую информацию. На другой стороне спектра, когда систематическая ошибка высока, а дисперсия низкая, модель плохо предсказывает цель и является настолько общей (то есть недостаточно подходящей), что работает примерно так же с невидимыми данными. В идеале, модель находится в «золотом пятне» компромисса смещения и дисперсии, и ее нельзя слишком переобучать или недооценивать. - Что такое чувствительность и как ее вычислить?
Чувствительность - это показатель, который можно использовать для оценки модели двоичной классификации. Например, предположим, что у вас есть модель, которая предсказывает, есть ли у кого-то рак, на основе ряда характеристик. Если мы считаем, что положительный класс - это тот, кто болен раком, а отрицательный класс - это тот, кто не болен раком, тогда наша модель, правильно предсказывающая, что у кого-то рак, является истинно положительным, а наша модель, правильно предсказывающая, что у кого-то нет рака, является истинно отрицательной. Если модель предсказывает, что у кого-то есть рак, но этого нет, это ложноположительная ошибка или ошибка типа I. Если модель предсказывает, что у кого-то нет рака, но он есть, это ложноотрицательный результат или ошибка типа II. В этом случае ложноотрицательный результат намного хуже, потому что этот человек не сможет получить лечение. Чтобы свести к минимуму количество ложноотрицательных результатов в модели, мы хотели бы оптимизировать чувствительность или коэффициент истинных положительных результатов модели (также иногда называемый «отзыв»). Чувствительность - это отношение истинных положительных результатов ко всем положительным результатам; Другими словами, чувствительность - это истинно положительные результаты, деленные на сумму истинно положительных и ложно отрицательных результатов. Например, если бы у нас было 90 истинно положительных случаев и 10 ложноотрицательных случаев, у нас была бы чувствительность 0,9.
С какими еще вопросами на собеседовании по науке о данных вы сталкивались? Добавьте их ниже. Удачного собеседования!