Для простоты статьи я решил сделать большинство своих примеров на простой регрессионной модели (одна независимая переменная и целевая переменная). Однако их можно применять к нескольким моделям линейной регрессии и, действительно, можно расширить до других форм общих линейных моделей с одной целевой переменной ANOVA, ANCOVA и t-тестами для независимых выборок.

Чтобы иметь лучшую модель в этом отношении, согласованность и эффективность играют жизненно важную роль, рассмотрите наш метод оценки как обычные наименьшие квадраты (OLS), как это обычно бывает.

Согласованность. Согласно центральной предельной теореме, когда мы хотим оценить параметр, полученный из выборочных данных, он имеет тенденцию улучшаться по мере увеличения размера выборки. Следовательно, мы можем назвать нашу оценку несмещенной, если средний размер выборки и совокупность одинаковы.

Эффективность: относится к тому, насколько точны наши оценки, другими словами, чем точнее наши оценки, тем эффективнее будет наша модель.

Повторная выборка нормально распределенной популяции имеет тенденцию быть нормальной, и мы можем рассчитать наши доверительные интервалы и p-значения (критерии значимости). Справедливость этого гарантирует, что у нас будут нормально распределенные ошибки модели.

Предположение о нормальности

Мы тратим слишком много времени на проверку нормальности, потому что все дело в ошибках. Когда предположение о нормальности выполнено, мы можем предположить, что ошибки нормально распределяются для любой комбинации значений переменных-предикторов.

Мы можем сказать, что регрессия очень устойчива к предположению о нормально распределенных ошибках, потому что даже если ошибки не распределены нормально в наших данных, коэффициенты будут соответствовать нормальному распределению по мере увеличения размера выборки.

Предположение о линейности

Если мы рассмотрим нашу модель линейной регрессии как Y = B0 + B1X1 + B2X2 + … + BnXn, наша целевая переменная Y должна иметь линейную связь со всеми предикторами (X1, X2, …, Xn); это означает, что целевая переменная предполагается линейной функцией предикторов (B1, B2, …, Bn), но не обязательно линейной функцией переменных предикторов. Например, предикторы могут быть (X ^ 2, X ^ 3, …), и мы все равно можем сказать, что у нас есть линейная модель.

Предположения об ошибках модели

Следующие четыре допущения относятся к ошибкам, а не к целевым или независимым переменным, невозможно исследовать эти допущения без оценки фактической регрессионной модели.

Это распространенное заблуждение, что проверка предположений может и должна быть полностью завершена до оценки модели. Проверка предположений должна быть непрерывным процессом на протяжении всего анализа данных.

1. Ноль условных средних ошибок

Предполагается, что ошибки имеют нулевое среднее значение для любой комбинации значений переменных-предикторов. Если это допущение нарушается, коэффициенты регрессии могут быть смещены, что также может привести к немоделируемой нелинейности. Например, если модель задает линейную связь между предиктором и ответом, а истинная связь нелинейна.

2. Независимость от ошибок

Ошибки предполагаются независимыми. Нарушение этого предположения приводит к смещенным оценкам стандартных ошибок и значимости, хотя оценки коэффициентов регрессии остаются несмещенными, но неэффективными. Ранее мы предполагали, что наши данные отбираются случайным образом и формируют нормальное распределение. Использование кластерной, а не случайной выборки может привести к зависимости ошибок. Исходя из этого предположения, для анализа вложенных данных может потребоваться использование многоуровневой модели.

3. Гомоскедастичность ошибок

Наши остатки (ошибки модели) должны быть постоянными на всех уровнях предикторов. Это предположение также известно как предположение об однородности дисперсии. Если остатки имеют конечную, но не постоянную дисперсию на разных уровнях предикторов, гетероскедастичность присутствует. Оценки МНК будут беспристрастными и согласованными до тех пор, пока ошибки независимы, но не будут эффективными.

4. Нормальное распределение ошибок

Это допущение требуется для надежных тестов значимости и доверительных интервалов в небольших выборках, другими словами, чем больше выборка, тем меньше важность этого допущения. Нормальный график QQ может быть полезен для проверки нормальности распределения ошибок.

Другие потенциальные проблемы

Две важные потенциальные проблемы часто описываются в связи с обсуждением допущений линейной регрессии: мультиколлинеарность и выбросы.

1. Мультиколлинеарность

Наличие корреляций между предикторами называется коллинеарностью (для отношений между двумя переменными предикторов) или мультиколлинеарностью (для отношений между более чем двумя предикторами). Если существует идеальная корреляция между двумя или более прогнозами, мы можем сказать, что невозможно вычислить уникальное решение методом наименьших квадратов для регрессионного анализа. С другой стороны, менее строгая мультиколлинеарность может привести к нестабильным оценкам коэффициентов для отдельных предикторов. Фактор инфляции дисперсии является одним из популярных показателей мультиколлинеарности. Соответствующие ответы на мультиколлинеарность могут включать использование альтернативного метода оценки, такого как гребневая регрессия или регрессия основных компонентов. Можно также рассмотреть возможность удаления некоторых высококоррелированных предикторов, но это решение обычно не идеально.

2. Выбросы

В некоторых случаях на результаты регрессионного анализа могут сильно повлиять отдельные члены выборки, имеющие весьма необычные значения одной или нескольких анализируемых переменных, или весьма необычное сочетание значений. Это не обязательно является проблемой само по себе и не обязательно является основанием для исключения таких случаев. Когда выбросы исключены, может быть полезно представить результаты как с исключением выбросов, так и без них.