Изучение множественной линейной регрессии (часть 4): автомобильный пример

использование Scikit Learn с Python доктором Элвином Ангом

Набор данных здесь:

https://www.alvinang.sg/s/automobileEDA.csv

https://www.alvinang.sg/s/Multiple_Regression_using_Scikit_Learn_with_Python_Part_II_by_Dr_Alvin_Ang.ipynb

Часть I. Загрузка и просмотр набора данных

Выход:

Часть II. Генерация уравнения множественной линейной регрессии

1. Определите наши Z и X

2. Соответствуйте линейной модели

3. Найдите Z-перехват

Z-перехват относится к A Z = A + b1X1 + b2X2 + b3X3 + b4X4

4. Найдите градиент

Градиент относится к b Z = A + b1X1 + b2X2 + b3X3 + b4X4

Это означает, что множественное линейное уравнение

Цена = — 15 806 + (53 * лошадиных сил) + (4,7 * снаряженная масса) + (81,5 * объем двигателя) + (36 * расход по шоссе)

Часть III: График распределения

Как мы визуализируем модель множественной линейной регрессии?

Это становится немного сложнее, потому что вы не можете визуализировать это с помощью регрессии или остаточного графика.

Один из способов оценить соответствие модели — посмотреть на график распределения:

Мы можем посмотреть на распределение подобранных значений, полученных в результате модели, и сравнить его с распределением фактических значений.

1. Сделайте прогноз

2. Визуализируйте график распределения

Комментарии:

Мы видим, что подобранные значения достаточно близки к фактическим значениям, поскольку два распределения немного перекрываются.
Тем не менее, определенно есть место для улучшения.
MR вполне подходит.

Часть IV: Используйте R2 и MSE в качестве индикаторов для определения точности подгонки MR

Рассчитать R2 для MR

а) Шаг 1: Подгонка модели MR

б) Шаг 2: Найдите R2

Комментарий:

Мы можем сказать, что ~ 80,896 % вариации цены объясняется этой множественной линейной регрессией «multi_fit».

80% означает, что на самом деле модель MR хорошо подходит… это означает, что фактические данные довольно близки к подобранной линии…

Оценка R2 представляет собой число от 0 до 1,

1 указывает на идеальную посадку
0 указывает на отсутствие соответствия.

Рассчитать MSE для MR

а) Шаг 1: Сделайте прогноз

б) Шаг 2: Найдите MSE

СКО = 1,2 х 1⁰⁷

MSE 0 указывает на идеальное соответствие

MSE бесконечности указывает на совершенно неточную подгонку.

Однако это крайние случаи и редко встречаются на практике.

Более реалистичный диапазон MSE для регрессионных моделей составляет от 0 до 100.

MSE 10 или меньше считается подходящим

MSE 100 и более считается плохой подгонкой.

Хорошо или плохо зависит от конкретного приложения.

Набор данных большего размера обычно дает более низкую MSE.

Модель с большим количеством функций обычно дает более высокий MSE.

Более сложная модель обычно дает более высокую MSE.

Часть V: Модель простой линейной регрессии (SLR) и модель множественной линейной регрессии (MLR)

1. Вспомните простую линейную регрессию (SLR)…

Мы использовали «хайвей-миль на галлон» вместо «цены».

R2 для SLR был: 0,49659118843391759

MSE для зеркальной фотокамеры: 3,16 x 10⁷.

2. Теперь о множественной линейной регрессии (MLR)…

В этой статье мы использовали множественную линейную регрессию (MLR):

Мощность, снаряженная масса, объем двигателя и расход топлива на галлон в сравнении с ценой

R2 для MLR: 0,80896354913783497.

MSE для MLR был: 1,2 x 10⁷

3. Сравнение…

R2 в сочетании с MSE показывает, что MLR кажется лучшей моделью, подходящей в этом случае, по сравнению с SLR.

О докторе Элвине Анге

Доктор Элвин Анг получил степень доктора философии, магистра и бакалавра в NTU, Сингапур. Ранее он был главным консультантом (наука о данных), а также доцентом. Он также был адъюнкт-лектором SUSS в течение 8 лет. Его внимание и интерес сосредоточены в области науки о данных в реальном мире. Хотя по образованию он операционный исследователь, его страсть к практическим применениям перевешивает его академическое образование. Он ученый, предприниматель, а также личный/деловой консультант.

Подробнее о нем на www.AlvinAng.sg.