Вопросы для интервью по науке о данных

Самые часто задаваемые вопросы на собеседовании по науке о данных (регрессионный анализ) и ответы на более свежие и опытные должности специалиста по данным.

Первоначально опубликовано на https://machinelearninggeek.com/data-science-interview-questions-part-2-regression-analysis/

Наука о данных является междисциплинарной областью. Он использует статистику, машинное обучение, базы данных, визуализацию и программирование. Итак, в этой второй статье мы сосредоточимся на основных вопросах науки о данных, связанных с регрессионным анализом.

Давайте посмотрим вопросы интервью.

1. Что такое линейная и нелинейная регрессия?

Регрессионный анализ — это контролируемый статистический метод, используемый для определения взаимосвязи между зависимой переменной и рядом независимых переменных.

Модель линейной регрессии следует линейной зависимости между зависимыми и независимыми переменными. В нем используется линейное уравнение Y = a +bx, где x — независимая переменная, а Y — зависимая переменная. Линейная регрессия проста в использовании и интерпретации. Нелинейная регрессия не следует уравнению Y = a +bx. Нелинейная регрессия гораздо более гибкая в подборе кривой. Его можно представить в виде полинома kстепеней.

Первоначально опубликовано на https://machinelearninggeek.com/

2. Что такое MSE и RMSE?

Среднеквадратическая ошибка (MSE) — это среднее значение квадратов ошибок всех значений. Или, другими словами, мы можем сказать, что это среднее квадратов различий между прогнозируемым и фактическим значением.

RMSE (среднеквадратичная ошибка) — это квадратный корень из среднего квадрата разницы между прогнозируемым и фактическим значением.

Увеличение RMSE больше, чем MAE, по мере увеличения размера тестовой выборки. В целом, MAE является устойчивым, а RMSE увеличивается по мере увеличения дисперсии величин ошибок.

3. Что такое MAE и MAPE?

Средняя абсолютная ошибка (MAE) — это среднее значение абсолютных или положительных ошибок всех значений. Или, другими словами, мы можем сказать, что это среднее значение абсолютной или положительной разницы между прогнозируемым и фактическим значением.

MAPE (Mean Absolute Percent Error) вычисляет среднюю абсолютную ошибку в процентах. Его можно определить как среднее процентное значение абсолютных или положительных ошибок.

4. В чем разница между R-квадратом и скорректированным R-квадратом?

R-квадрат или коэффициент детерминации — это мера доли вариации вашей зависимой переменной (Y), объясненной вашими независимыми переменными (X) для модели линейной регрессии.

Основная проблема с R-квадратом заключается в том, что он всегда будет одинаковым или будет увеличиваться при добавлении дополнительных переменных. Здесь может помочь скорректированный квадрат R. Скорректированный R-квадрат наказывает вас за добавление переменных, которые не улучшают вашу существующую модель.

5. В чем разница между корреляцией и регрессией?

корреляция измеряет силу или степень взаимосвязи между двумя переменными. Он не улавливает причинно-следственную связь. Он визуализируется одной точкой.

Регрессия измеряет, как одна переменная влияет на другую. Регрессия связана с подбором модели. Он фиксирует причинно-следственную связь и показывает причину и следствие. Он визуализируется по линии.

6. Что такое мультиколлинеарность?

Мультиколлинеарность также может быть известна как коллинеарность. Это явление, при котором две или более независимые переменные сильно коррелированы, т. е. одна переменная может быть линейно предсказана по другим переменным. Он измеряет взаимные корреляции и взаимосвязи между независимыми переменными.

Мультиколлинеарность возникает из-за неточного использования фиктивных переменных или из-за любой переменной, которая вычисляется из другой переменной в данных.
Это влияет на коэффициенты регрессии и вызывает высокие стандартные ошибки. Мы можем обнаружить, используя коэффициент корреляции, коэффициент инфляции дисперсии (VIF) и собственные значения.

7. Что такое ВИФ? Как вы это вычисляете?

Факторы инфляции дисперсии (VIF) измеряют, насколько увеличивается дисперсия расчетного коэффициента регрессии из-за коллинеарности. Он вычисляет степень мультиколлинеарности в регрессионном анализе.

Он выполняет обычную регрессию методом наименьших квадратов, в которой Xi является функцией всех остальных независимых или независимых переменных, а затем вычисляет VIF по формуле:

8. Что такое гетероскедастичность?

Гетероскедастичность относится к ситуации, когда изменчивость переменной неодинакова в диапазоне значений второй переменной, которая ее предсказывает. WE может обнаружить гетероскедастичность с помощью графиков или статистических тестов, таких как тест Бреуша-Пагана и тест NCV.

9. Что такое преобразование Бокса-Кокса?

Преобразование Бокса-Кокса — это математическое преобразование переменной, чтобы приблизить ее к нормальному распределению. Box-cox используется для преобразования искаженных данных в нормально распределенные данные.

10. Каковы основные предположения линейной регрессии?

Линейная регрессия имеет следующие допущения:

Линейность: взаимосвязь между функциями и целью.
Гомоскедастичность. Погрешность имеет постоянную дисперсию.
Мультиколлинеарность. Между функциями нет мультиколлинеарности.
Независимость. Наблюдения не зависят друг от друга.
Нормальность: ошибка (остатки) подчиняется нормальному распределению.

11. Что такое ОЛС?

Основная цель линейной регрессии - найти коэффициенты (α и β) путем минимизации члена ошибки. Модель пытается минимизировать сумму квадратов ошибок. Этот процесс известен как OLS. Метод OLS (Обычные наименьшие квадраты) соответствует минимизации суммы квадратов разностей между наблюдаемыми и прогнозируемыми значениями.

12. Что вы подразумеваете под нормальным распределением?

Нормальное распределение имеет форму колокола, как кривая. это распределение, которое происходит естественным образом во многих ситуациях. Например, кривая нормального распределения наблюдается в таких тестах, как SAT и GRE. Большинство учащихся получат средний балл ©, тогда как меньшее количество учащихся получит B или D.

Нормальное распределение является наиболее важным распределением вероятностей в статистике, поскольку оно соответствует многим природным явлениям. Например, рост, артериальное давление, погрешность измерения и показатели IQ подчиняются нормальному распределению. Он также известен как распределение Гаусса и кривая нормального распределения.

13. Что такое фиктивные переменные?

Фиктивная переменная является категориальной независимой переменной. В регрессионном анализе такие переменные называются фиктивными переменными. Она также известна как индикаторная
переменная, категориальная переменная, бинарная переменная или качественная переменная. n категорий в столбце всегда имеют n-1 фиктивных переменных.

14. Как работает регрессор случайного леса?

Случайный лес — это алгоритм мешков, который параллельно запускает несколько деревьев решений независимо друг от друга. Мы выбираем некоторую выборку из набора данных для каждой выборки 1. Будет сгенерировано дерево решений. В задаче классификации выполняет голосование большинством по окончательным предсказанным значениям нескольких деревьев. В задаче регрессии находит среднее значение окончательных прогнозируемых значений из нескольких деревьев решений.

15. Что такое градиентный спуск?

Это метод итерационной оптимизации первого порядка для нахождения минимума функции. Это эффективный метод оптимизации, позволяющий найти локальный или глобальный минимум.

Типы градиентного спуска

Полный пакетный градиентный спуск использует полный набор данных.
Стохастический градиентный спуск использует образец набора данных.

16. Каковы недостатки линейной регрессии?

Основным недостатком линейной регрессии является предположение о линейности. Он предполагает линейную зависимость между входными и выходными переменными и не подходит для сложных задач. Он чувствителен к шуму и выбросам. На него влияет мультиколлинеарность.

17. Какая польза от регуляризации? Объясните регуляризации L1 и L2.

Регуляризация используется для решения проблем переобучения. Он пытается сбалансировать предвзятость и дисперсию. Это наказывает обучение более сложным и гибким моделям. L1 и L2 — это обычно используемые методы регуляризации. Регрессия L1 или LASSO (оператор наименьшего абсолютного сокращения и выбора) добавляет абсолютное значение величины коэффициента в качестве штрафного члена к функции потерь.

Регрессия L2 или Ridge добавляет квадрат величины коэффициента в качестве штрафного члена к убытку.

Резюме

В этой статье мы сосредоточились на вопросах интервью регрессионного анализа. В следующей статье мы сосредоточимся на вопросах интервью, связанных с методами классификации.

Вопросы для интервью по науке о данных, часть 3 (классификация)