В этом посте я покажу вам необходимые допущения, необходимые для того, чтобы оценки коэффициентов линейной регрессии были беспристрастными, и расскажу о других свойствах, которые было бы неплохо иметь. В Интернете есть много версий предположений о линейной регрессии. Надеюсь, этот пост внесет ясность.

Допущение «Обязательно» 1. условное среднее значение остатков равно нулю

E(ε | X) = 0 означает, что ошибки прогнозирования нашей регрессии, как предполагается, не существуют (равны нулю) с учетом наблюдаемых данных. Это очень просто, если подумать об определении беспристрастности: среднее значение оценки совпадает с ее истинным значением. Другими словами, когда E(ε | X) ≠ 0, мы знаем, что среднее значение оценки коэффициента β не равно β.

Визуально график рассеяния остатков должен равномерно распространяться вокруг нулевой горизонтальной линии. Ниже приведен случай, когда E(ε | X) ≠ 0, поскольку большинство остатков положительны:

Обязательное допущение 2. условная дисперсия остатков постоянна

Это предположение больше касается возможности проведения статистических тестов на них, а не их беспристрастности. Другими словами, если это предположение не выполняется, у нас даже нет оценок коэффициентов или, по крайней мере, нет заслуживающих доверия оценок. Как же так?

Помните, что дисперсия остатков, σ, является частью дисперсии оценок коэффициентов: var(β-оценки)=(X’X)’’σ, где ’ означает транспонирование, а ’’ означает инверсию. Поэтому, когда σ не является константой, мы не можем получить надежную оценку дисперсии оценок β. В этом случае многие статистические данные проверки гипотез будут недействительными, поскольку они обычно включают стандартную ошибку (квадратный корень из var(β оценок)). Например, мы не можем проверить значимость оценок коэффициентов, потому что t-критерию и p-значению нужна его стандартная ошибка.

Допущение «Обязательно» 3. Отсутствие пропущенной переменной смещения

На практике почти невозможно уловить все влияющие переменные в сложном тематическом исследовании, но мы все же хотим избежать предвзятости пропущенных переменных. Почему?

Вспомните еще раз определение беспристрастности:

Когда содействующий предиктор опущен (в данном случае x), коэффициент x будет включен в константу (β₀ или ε или оба). Это может привести к смещенной оценке β₀ или ненулевому условному среднему остатка.

Как это проверить? Обычный способ — добавить обратно подозрительную пропущенную переменную в вашу регрессию, а затем посмотреть, меньше ли ее p-значение порогового значения (например, 0,05) и сильно ли изменяются другие оценки коэффициентов, когда вы добавляете ее обратно. Либо p-значение ‹ 0,05, либо оценки других коэффициентов сильно меняются, что означает, что вы пропустили важную переменную. Еще один необычный, но эффективный способ — построить график Y с остатками и посмотреть, есть ли закономерность, поскольку предполагается, что остатки поглощают по крайней мере часть мощности пропущенной переменной.

Как правило, пропущенная переменная существует, если она влияет как на другой предиктор, так и на целевую переменную. Ненаблюдаемую пропущенную переменную можно разрешить с помощью методов причинного вывода, таких как методы инструментальных переменных. Я напишу пост, чтобы объяснить это позже 😃

Эти три допущения являются единственными, которые обеспечивают несмещенность оценок коэффициентов в линейной регрессии. Ниже я объяснил ненужное допущение — оно нам вообще не нужно; и два приятно иметь предположения.

«Ненужное» предположение. Линейная зависимость между Y и X

Нужна ли нам приблизительно линейная связь между Y и X, чтобы начать линейную регрессию? Нет! Линейная регрессия не отключается, когда у вас есть более сложная версия данных, потому что мы можем добавлять показатели степени к предикторам. Например, любые полиномиальные функции можно смоделировать с помощью линейной регрессии:

Помимо полиномов, мы также можем добавить члены взаимодействия, такие как Y = c + XZ + ε, что также соответствует нелинейному графу.

Предположение 1 «Приятно иметь». Мультиколлинеарность между предикторами нулевая или небольшая

Является ли мультиколлинеарность между предикторами проблемой, до сих пор является предметом дискуссий в академических кругах. Однако я считаю, что это не проблема, пока мультиколлинеарность не идеальна — идеальных линейных отношений между предикторами не бывает. В действительности трудно найти совершенную мультиколлинеарность или совершенную нулевую мультиколлинеарность. Большую часть времени мы находимся в средней серой зоне. Надежда заключается в том, чтобы мультиколлинеарность была как можно ниже. Почему?

Во-первых, вспомним, как мы вычисляем оценки коэффициентов β и их дисперсию («их», потому что β — это вектор):

Очевидно, нам нужна обратная матричная версия X². Но обратимо ли оно? Как проверить, обратим ли он? Возвращаясь к вашему классу линейной алгебры, помните, что X’X обратимо, только если столбцы в X линейно независимы. Когда существует полная коллинеарность между X₁ и X₂, X не имеет полного ранга, и, следовательно, X’X необратим. Сделав шаг назад, когда существует высокая коллинеарность между X₁ и X₂, X’X почти необратим, и поэтому вычисление оценок β может быть очень сложным. Кроме того, резко возрастет дисперсия оценок β. Как на этот раз мы проведем все статистические тесты с огромной стандартной ошибкой?

Предположение 2 «Приятно иметь». Нормальность остатков

Это предположение хорошо иметь только из-за теоремы Гаусса-Маркова, которая в основном говорит, что ваши оценки β являются лучшими линейными несмещенными оценками («СИНИМИ»), если это предположение верно и оценки несмещены (три необходимых предположения также верны). «Лучший» с точки зрения наименьшей дисперсии оценок β. Мы опускаем здесь математическое доказательство.

P.S. если вам понравился мой пост или вы чему-то научились из него, пожалуйста, не забудьте похлопать!😀