В этом исследовании мы проанализируем результаты тестов по чтению как зависимую переменную и различные факторы как независимые факторы и посмотрим, какие из них будут иметь значение при определении результатов по чтению.

Есть 3663 строки и 24 столбца, включая столбец readScore, который является нашей зависимой переменной.

Все переменные являются числовыми, кроме гонца, который является категориальной переменной, как показано ниже.

Гистограмма оценки чтения говорит нам, что это почти нормально с ее точки зрения, с некоторой дополнительной асимметрией в левой части гистограммы, но не так сильно.

Категория расы показывает нам эти данные, мы изменим это на категориальный признак, чтобы запустить линейный регрессионный анализ.

Сводная статистика показывает нам, что существует много NULL, однако, поскольку у нас достаточно данных, мы позволим модели удалить такие NULL, чтобы сделать это исследование достаточно простым, однако в более надежных приложениях мы будем использовать один из стандартных методов мутации либо среднее значение, медиана, замена или регрессия для замены таких значений.

Мы запустим модель линейной регрессии со всеми переменными и увидим, какие переменные здесь значимы по своей природе.

Квадрат R модели на самом деле довольно низкий, как мы можем видеть из деталей ниже:

Теперь давайте запустим удаление переменных, которые не являются значимыми, и запустим регрессию на основе значений, которые значимы только для минимального порога.

Поэтому мы удалим эти переменные, т. е. preschool, motherHS, motherWork,FatherHS, FatherWork, selfBornUS, motherBornUS,
FatherBornUS, englishAtHome, minutePerWeekEnglish, studentInEnglish, schoolHasLibrary и city, а затем повторно запустим регрессию.

Итак, мы повторно запустим модель с этими переменными и посмотрим, как это влияет на R-квадрат и какие переменные теперь значимы.

Как мы видим ниже, теперь все переменные значимы, т.е. как показано ниже, а также категориальная переменная большинства значений расы также значима, за исключением чернокожих и латиноамериканцев.

Мы проверили мультиколинеарность, и она показывает, что мультиколинеарности не существует, так как все значения VIF меньше 5.

Значение R в квадрате по-прежнему низкое, около 0,3504, и некоторые вещи, которые мы можем сделать для улучшения модели, заключаются в следующем: мы можем заменить недостающие значения средними значениями и повторно запустить модель. Мы также можем стандартизировать и нормализовать некоторые переменные, диапазон которых довольно широк. Мы также можем запустить более сложные модели, такие как Random forest или Boost, чтобы улучшить эту модель.

Подводя итог, мы можем заключить, что переменные, которые имеют наибольший эффект, следующие:

Оценка оказывает положительное влияние, поэтому, если у вас хорошие оценки, ваши оценки по чтению также будут высокими, а принадлежность к мужчине на самом деле оказывает негативное влияние и снижает вашу оценку. Если студент рассчитывает получить степень бакалавра, то это окажет наибольшее положительное влияние, а также если мать или отец имеют степень бакалавра, что также оказывает положительное влияние, хотя наличие у отца степени бакалавра оказывает несколько более положительное влияние на оценка ребенка по чтению. Если у ребенка есть компьютер для работы в школе, это также оказывает положительное влияние, а если ребенок читает 30 минут в день, это также улучшит его баллы по чтению. Если учащийся идет в государственную школу, то баллы падают, и размер последней школы значительно увеличивается, но влияние коэффициента не так велико.

Использованная литература:

Наборы данных имеют следующие переменные:

оценка:класс учащегося в школе (большинство 15-летних в Америке учатся в 10-м классе).

мужчина:является ли учащийся мужчиной (1/0)

raceeth: сочетание расы и этнической принадлежности учащегося.

дошкольное учреждение: посещал ли учащийся дошкольное учреждение (1/0).

expectBachelors: рассчитывает ли студент получить степень бакалавра (1/0)

motherHS:Окончила ли мать учащегося среднюю школу (1/0)

motherBachelors: получила ли мать учащегося степень бакалавра (1/0)

motherWork: будет ли мать учащегося работать неполный или полный рабочий день (1/0).

fatherHS:Окончил ли отец учащегося среднюю школу (1/0)

fatherBachelors: получил ли отец учащегося степень бакалавра (1/0)

fatherWork: работает ли отец учащегося на неполный или полный рабочий день (1/0).

selfBornUS:родился ли учащийся в Соединенных Штатах Америки (1/0).

motherBornUS:родилась ли мать учащегося в Соединенных Штатах Америки (1/0).

fatherBornUS:родился ли отец учащегося в Соединенных Штатах Америки (1/0).

englishAtHome: говорит ли учащийся по-английски дома (1/0).

computerForSchoolwork: есть ли у учащегося доступ к компьютеру для школьных занятий (1/0).

read30MinsADay:Читает ли учащийся для удовольствия в течение 30 минут в день (1/0)

minutesPerWeekEnglish: количество минут в неделю, которое учащийся проводит на уроках английского языка.

studentsInEnglish: количество учащихся в классе английского языка этого учащегося в школе.

schoolHasLibrary:есть ли в школе этого учащегося библиотека (1/0).

publicSchool: посещает ли этот учащийся государственную школу (1/0)

городской:находится ли школа этого учащегося в городской местности (1/0)

schoolSize: количество учеников в школе этого ученика.

Оценка чтения: балл учащегося по чтению по 1000-балльной шкале.