Даст ли подбор линейной регрессии и выполнение t-критерия аналогичные результаты?

Я пытаюсь предсказать статистически значимые переменные из списка двоичных переменных. У меня есть концептуальные сомнения в двух упомянутых ниже подходах к поиску соответствующих переменных.

Зависимая переменная: рост человека.

Независимые переменные:

  1. Пол (мужской или женский)
  2. Financial_Status (ниже черты бедности или нет)
  3. College_Graduate(Да или Нет)

Подход 1. Подгонка линейной регрессии, принимая их как зависимые/независимые переменные и находя статистически значимые переменные.

Подход 2. Выполнение отдельного статистического теста для каждой зависимой переменной (t-тест или какой-либо другой соответствующий тест) для вычисления статистически значимых переменных.

Являются ли оба этих подхода похожими и дадут ли они аналогичные результаты? Если нет, то какая именно разница?


person ShubhamA    schedule 21.05.2019    source источник


Ответы (1)


Поскольку у вас есть несколько независимых переменных, то явно нет.

Если вы хотите использовать подход ttest для каждого из значений различных независимых переменных (Gender, Financial_Status и College_Graduate), то это означает, что вы выполните 3 разных теста. Выполнение нескольких тестов сопряжено с риском получения ложноположительных результатов, и поэтому его следует корректировать с помощью метода корректировки множественного сравнения (Bonferoni, FDR и др.).

С другой стороны, если вы будете использовать одну многомерную линейную регрессию, у вас не будет правильного для множественных сравнений, поэтому, на мой взгляд, это лучший подход.

person EyalItskovits    schedule 22.05.2019