Как прочитать статистический отчет модели, созданный в R?

Давайте начнем с определения различных терминов в отчете, показанном на рисунке выше.

  1. lm(formula = heart.disease ~ езда на велосипеде+курение, data = heart.data)

lm относится к модели линейной регрессии. lm() – это способ вызова этой функции.

Модель линейной регрессии в машинном обучении прогнозируетпеременную на основе других переменных.

1. Прогнозируемую переменную часто называют зависимой переменной.

2. Другие переменные, которые используются при прогнозировании зависимой переменной, часто называются Независимой переменной.

Это используется с числовым типом данных. Данные в основном представляют собой непрерывные данные. Прогнозирование с другими типами данных, такими как порядковые, дискретные или категориальные данные, которые мы в конечном итоге получаем используя логистическую регрессию (о которой я могу рассказать в другой статье). При этом имейте в виду, что не существует правила, согласно которому модель линейной регрессии нельзя использовать с другими типами данных.

Модель предсказывает, сколько точек данных может соответствовать линейной линии, наклон которой можно рассчитать с помощью y = m*x+c.

Большинство данных в реальном мире не являются линейными, поэтому точки данных отображаются в виде диаграммы рассеяния.

В формуле

  1. heart.disease ~ езда на велосипеде+курение

heart.disease: Y(зависимая переменная);

езда на велосипеде+курение: X1,X2,X3 (несколько независимых переменных), которые помогают прогнозировать переменную Y.

Поскольку существует более одной переменной, это множественная регрессия. Альтернативно, если бы была только одна независимая переменная. Таким образом, мы получили простую линейную регрессию.

2. Остатки: они показывают разницу ошибок между фактическими значениями и прогнозируемым результатом (значениями). Мы хотим более низкую остаточную стоимость.

3. Коэффициенты. Они предоставляют нам следующее значение для каждого перехвата.

1. Оценка:

В основном они генерируются с использованием стандартного метода наименьших квадратов (OLS). Основная цель этого значения — спрогнозировать значение зависимой переменной при наличии независимых переменных.

Например, в нашем случае у нас есть уравнение мультирегрессии, такое как

Y = X1.a+X2.b+X3.

1.1. Перехват (β₀):

Расчетный перехват составляет 14,9.

Это означает, что теоретически при нулевой ценности езды на велосипеде и курения (только для объяснения) вероятность сердечно-сосудистых заболеваний составит 14,9.

Во многих случаях перехват может не иметь практической интерпретации, особенно если нулевое значение предиктора не имеет смысла.

1.2. Езда на велосипеде(β₁):

Коэффициент для езды на велосипеде составляет -0,200. Это указывает на то, что езда на велосипеде отрицательно коррелирует с сердечно-сосудистыми заболеваниями.

Ожидается, что число заболеваний сердца у человека уменьшится на 0,200, при этом все остальное останется неизменным.

1.3. Курение(β2):

Коэффициент за курение составляет 0,178. Это указывает на то, что курение положительно коррелирует с сердечно-сосудистыми заболеваниями.

Ожидается, что число заболеваний сердца у человека увеличится на 0,178, при этом все остальное останется неизменным.

4. Стандартная ошибка:

Стандартная ошибка (SE) — это статистический термин, измеряющий точность выборки, представляющей совокупность. В статистике стандартная ошибка, по сути, количественно определяет изменчивость выборочного среднего (или другой статистики), когда из одной и той же совокупности берутся разные выборки.

Меньшие стандартные ошибки указывают на более точные оценки.

Например, стандартная ошибка езды на велосипеде равна 0,001, а стандартная ошибка перехвата — 0,080. Аналогично, как и в случае с остальными функциями.

Это покажет среднюю сумму, на которую ожидается, что расчетные коэффициенты будут отличаться от фактической стоимости населения.

5. Значения t и значения p: эти значения проверяют гипотезу о том, что каждый коэффициент отличен от нуля. Все предикторы статистически значимы с разной степенью достоверности.

Например, значение t равно 186 для перехвата и -146 для езды на велосипеде. Они отличаются от 0 значениями, записанными в этом примере.

6. Важные показатели:

R² (R-квадрат или кратный R-квадрат):

R2 измеряет долю дисперсии зависимой переменной, которую можно предсказать на основе независимых переменных.

Например, в нашем случае множественный R-квадрат равен 0,9796, что означает, что 97% вариабельность сердечно-сосудистых заболеваний можно увидеть по зависимой переменной (езда на велосипеде, курение). Остальные 3 % изменчивости не удалось объяснить с помощью модели, возможно, из-за случайной изменчивости или ошибки.

Скорректированный R-квадрат:

Хотя Скорректированный R² всегда будет увеличиваться по мере добавления в модель большего количества предикторов (даже если они не являются статистически значимыми), Скорректированный R² учитывает количество предикторов в модели. .

Оно увеличивается только в том случае, если новый предиктор улучшает модель больше, чем можно было бы ожидать случайно.

Оно может уменьшиться, если предиктор случайно улучшит модель меньше, чем ожидалось.

Например, в нашем случае Скорректированный R² равен 0,9795, что примерно соответствует значению R-квадрата.

Это хорошая новость, поскольку созданная нами модель лучше подходит, поскольку она корректируется с учетом количества предикторов, что делает ее более надежной при рассмотрении других моделей.

Обычно более высокое скорректированное значение R² предполагает, что модель лучше подходит, как в нашем случае.

На этом интерпретация отчета R-summary на основе создания нашей модели завершена. Пожалуйста, дайте мне знать, если у вас есть какие-либо вопросы или вопросы.

Не стесняйтесь обращаться ко мне здесь через комментарии или через мой LinkedIn.

Как всегда, я надеюсь, что вы найдете эту информацию знающей и дадите мне знать свое мнение.

Следите за другими фантастическими и практическими статьями по науке о данных.

А пока, берегите себя! :)

Источники: