Назад к основам: предположения об общих моделях машинного обучения

Забудьте на мгновение о глубоком обучении и нейронных сетях.

Поскольку все больше и больше людей начинают заниматься наукой о данных, я думаю, что важно не забывать основы всего этого.

Статистика.

Если вы новичок в области аналитики, ничего страшного! Все мы откуда-то начинаем!

Но важно знать знать о существовании предположений модели машинного обучения, о которых я собираюсь рассказать в этой публикации.

Мне посчастливилось изучать все эти концепции еще в студенческие годы, поэтому я подумал, что было бы здорово вернуться к основам и написать что-нибудь о них.

Забота - это делиться. 😃

Давай начнем!

Линейная регрессия, также известная как регрессия методом наименьших квадратов (МНК)

Регрессия OLS пытается объяснить, существует ли связь между вашими независимыми переменными (предикторами) и вашей зависимой переменной (целью).

Он подстраивает линию к вашим данным, минимизируя сумму квадратов остатков.

Остаток - это разница между наблюдаемым значением и прогнозируемым значением. Остатки используются как показатель того, насколько хорошо ваша модель соответствует данным.

Однако, чтобы иметь возможность доверять и быть уверенным в результатах, есть некоторые допущения, которые вы должны выполнить перед моделированием.

Удовлетворение всех этих предположений позволит вам получить наилучшие возможные оценки для вашей модели.

В регрессионной модели OLS есть 5 основных допущений.

Предположение 1: существует линейная связь между независимыми и зависимыми переменными.

Это предположение застало меня врасплох, когда я впервые услышал о нем на уроках статистики.

Я помню, как после просмотра результатов экзамена чувствовал себя таким обманутым и обманутым, что они навсегда остались в моей памяти.

Пища для размышлений.

Какое из этих уравнений соответствует этому предположению?

Y = β₀ + β₁X₁+ β₂X₂

Y = β₀ + β₁X₁+ β₂X₂²

Оказывается, оба линейны.

Часто бывает неверное истолкование того, что считается линейным уравнением.

Линейные уравнения = прямые линии
Нелинейные уравнения = изогнутые линии
Это неверно.

Когда статистики говорят, что уравнение является линейным, они имеют в виду линейность параметров и что уравнение принимает определенный формат.

Это формат:

Y = Constant + Parameter1 * Variable1 + Parameter2 * Variable2 …

Примечание:

  1. Должна быть постоянная
  2. Остальные термины следуют шаблону «Параметр * Переменная», и все они складываются вместе.

Не имеет значения, являются ли переменные нелинейными (т. Е. Возведенными в квадрат), пока уравнение следует за этим указанным формате, это линейное уравнение. Любое другое уравнение, которое не соответствует этому формату, является нелинейным.

Это также означает, что некоторые линии линейного уравнения при подборе искривлены.

Так что технически ... использование только диаграмм рассеяния на самом деле не говорит вам, является ли подобранная кривая, которую вы видите, линейной или нет. Возможно, вам нужно будет посмотреть на уравнение кривой.

Предположение 2: Нет мультиколлинеарности

Мультиколлинеарность означает высокую корреляцию между вашими независимыми переменными.

Мультиколлинеарность представляет собой проблему, потому что она создает избыточную информацию, которая делает результаты вашей регрессионной модели ненадежными.

Чтобы обойти эту проблему, вы можете использовать два метода:

  1. Проведите корреляционный анализ всех ваших независимых переменных.
  2. Удалите независимые переменные с высоким коэффициентом инфляции дисперсии (VIF) *. Как правило, VIF > 10 является сильным признаком мультиколлинеарности.

*VIF = 1 ÷ (1-R²)

Предположение 3: отсутствие автокорреляции

Автокорреляция означает, что остатки не являются независимыми друг от друга. То есть остатки предыдущих наблюдений, вызывающие систематическое увеличение / уменьшение ваших текущих наблюдаемых остатков.

Как следствие, это приведет к недооценке дисперсии, что повлияет на результаты доверительных интервалов или тестов гипотез.

Чтобы проверить автокорреляцию, вы можете развернуть тест Дурбина-Ватсона «D». Любые значения между 1.5 < d < 2.5 удовлетворяют этому предположению.

В противном случае, чтобы исправить автокорреляцию, вы должны применить формулу «устойчивых к автокорреляции стандартных ошибок (HAC)» при вычислении стандартных ошибок для исправления автокорреляции.

Примечание. Вы можете встретить «HAC» как «оценку Ньюи – Уэста».

Предположение 4: остатки должны быть гомоскедастичными.

Гомоскедастичность - это идея о том, что ваш остаточный график должен показывать даже и случайный образец во всех наблюдениях.

Другими словами, дисперсия ваших остатков должна быть согласованной по всем наблюдениям и не должна следовать какой-либо систематической схеме.

На изображении ниже первый график показывает систематический образец остаточного графика. Это также известно как гетероскедастичность; опровергая предположение.

График ниже показывает, как должен выглядеть гомоскедастический остаточный график.

Так в чем же проблема гетероскедастичности?

  1. Ваши объективные оценки больше не будут лучшими.
  2. Это влияет на расчет стандартных ошибок, которые могут непреднамеренно повлиять на результаты любых проверок гипотез.

Чтобы решить первую проблему гетероскедастичности, можно увеличить размер выборки.

Для второй проблемы вы должны применить формулу «надежная стандартная ошибка», чтобы учесть влияние гетероскедастичности на вашу ошибку.

Примечание. «Устойчивая стандартная ошибка» также известна как «Стандартная ошибка, согласующаяся с гетероскедастичностью» (HC). При программировании вы можете встретить это как «HC».

Предположение 5: все независимые переменные обычно распределены

Это предположение является необязательным с точки зрения получения наилучших объективных оценок.

Однако это необходимо, если вы хотите выполнить проверку гипотез для получения доверительных интервалов или интервалов прогноза.

Примечание: Вы можете просмотреть разницу между ними здесь.

Проверить нормальность можно двумя способами:

  1. Создайте графики гистограммы для каждой независимой переменной.

2. Запустите Q-Q график остатков. Все наблюдения должны следовать прямой линии, если невязки нормальные.

Если вам нужно выполнить это предположение, но ваши переменные не распределены нормально, вы, возможно, можете преобразовать свои переменные.

Логистическая регрессия

Предположения логистической регрессии сильно отличаются от регрессии OLS в том, что:

  1. Нет необходимости в линейной зависимости между независимыми и зависимыми переменными.
  2. Нет необходимости в том, чтобы остатки были нормальными.
  3. Нет необходимости выполнять предположение гомоскедастичности.

Итак, какие предположения необходимо выполнить для логистической регрессии?

Вот 5 ключевых предположений для логистической регрессии.

Допущение 1: Соответствующая структура зависимой переменной

Это предположение просто утверждает, что бинарная логистическая регрессия требует, чтобы ваша зависимая переменная была дихотомической, а порядковая логистическая регрессия требует, чтобы она была порядковой.

Кроме того, зависимая переменная не должна быть шкалой интервалов или отношений.

Предположение 2: существует линейная зависимость между логитом результата и каждой независимой переменной.

Функция logit определяется следующим образом:

logit(p) = log(p/(1-p)), where p is the probability of an outcome

Чтобы проверить это предположение, вы можете сделать это визуально, нанеся каждую независимую переменную и значения логита на диаграмму рассеяния.

На изображении выше оси Y являются независимыми переменными, а ось X показывает логит-значения. Затем посмотрите на уравнение кривой, чтобы убедиться, что оно соответствует предположению о линейности.

Помните, что линейность заключается в параметрах. Пока уравнение соответствует форме линейного уравнения, указанной выше, оно удовлетворяет предположению о линейности.

Примечание. Я ошибся с метками оси X, это должно быть «Логит», а не «Логит-вероятность».

Предположение 3: Нет мультиколлинеарности

Как и в случае с предположением о регрессии OLS, здесь можно сказать то же самое.

(Подробнее см. в разделе о регрессии OLS.)

Предположение 4: Нет влиятельных выбросов

Влиятельные выбросы - это экстремальные точки данных, которые влияют на качество модели логистической регрессии.

Не все выбросы имеют влияние.

Вам нужно будет проверить, какие точки являются наиболее важными, прежде чем удалять или преобразовывать их для анализа.

Чтобы проверить выбросы, вы можете запустить Cook’s Distance для значений данных. Высокое значение расстояния Кука указывает на выбросы.

Практическое правило для выявления значительного выброса - когда Cook’s Distance > 1.

Предположение 5: независимость наблюдений

Это предположение требует, чтобы наблюдения логистической регрессии были независимыми друг от друга.

То есть наблюдения не должны исходить из плана повторяющихся измерений.

План повторных измерений относится к нескольким измерениям одной и той же переменной, выполненным для одного и того же человека в разных экспериментальных условиях или в разные периоды времени.

Хорошим примером повторных измерений являются лонгитюдные исследования - отслеживание прогресса предмета на протяжении многих лет.

Машина опорных векторов (SVM)

Нет никаких модельных предположений для проверки для SVM.

Древовидные модели

Для моделей на основе дерева, таких как Деревья решений, Случайный лес и Повышение градиента, не требуется проверять допущения модели.

В отличие от регрессии OLS или логистической регрессии, древовидные модели устойчивы к выбросам и не требуют, чтобы зависимые переменные соответствовали каким-либо предположениям о нормальности.

Почему древовидные модели устойчивы к выбросам?

Нажмите здесь, чтобы получить подробное объяснение от Quora.

Конечные заметки

Ну вот и все!

Я думаю, что ключевой вывод здесь заключается в том, что если вы планируете использовать регрессию или любую из обобщенных линейных моделей (GLM), есть модельные предположения, которые вы должны проверить перед построением своей модели. .

Для моделей на основе SVM или деревьев нет никаких допущений для проверки.

Надеюсь, этот пост помог!

Увидимся в следующем посте!

안녕히 계세요 (Annyeonghi gyeseyo)!

Профиль в LinkedIn: Тимоти Тан

использованная литература

  1. Https://www.lexjansen.com/wuss/2018/130_Final_Paper_PDF.pdf
  2. Https://www.statisticssolutions.com/assumings-of-logistic-regression/
  3. Http://www.sthda.com/english/articles/36-classification-methods-essentials/148-logistic-regression-assumings-and-diagnostics-in-r/#logistic-regression-assumings
  4. Http://sphweb.bumc.bu.edu/otlt/MPH-Modules/BS/R/R5_Correlation-Regression/R5_Correlation-Regression4.html
  5. Https://www.statisticssolutions.com/assumings-of-linear-regression/
  6. Https://www.quora.com/Why-are-tree-based-models-robust-to-outliers