использование Scikit Learn с Python доктором Элвином Ангом
Набор данных здесь:
https://www.alvinang.sg/s/automobileEDA.csv
Часть I. Загрузка и просмотр набора данных
Выход:
Часть II. Генерация уравнения множественной линейной регрессии
1. Определите наши Z и X
2. Соответствуйте линейной модели
3. Найдите Z-перехват
Z-перехват относится к A Z = A + b1X1 + b2X2 + b3X3 + b4X4
4. Найдите градиент
Градиент относится к b Z = A + b1X1 + b2X2 + b3X3 + b4X4
Это означает, что множественное линейное уравнение
Цена = — 15 806 + (53 * лошадиных сил) + (4,7 * снаряженная масса) + (81,5 * объем двигателя) + (36 * расход по шоссе)
Часть III: График распределения
Как мы визуализируем модель множественной линейной регрессии?
Это становится немного сложнее, потому что вы не можете визуализировать это с помощью регрессии или остаточного графика.
Один из способов оценить соответствие модели — посмотреть на график распределения:
Мы можем посмотреть на распределение подобранных значений, полученных в результате модели, и сравнить его с распределением фактических значений.
1. Сделайте прогноз
2. Визуализируйте график распределения
Комментарии:
- Мы видим, что подобранные значения достаточно близки к фактическим значениям, поскольку два распределения немного перекрываются.
- Тем не менее, определенно есть место для улучшения.
- MR вполне подходит.
Часть IV: Используйте R2 и MSE в качестве индикаторов для определения точности подгонки MR
Рассчитать R2 для MR
а) Шаг 1: Подгонка модели MR
б) Шаг 2: Найдите R2
Комментарий:
Мы можем сказать, что ~ 80,896 % вариации цены объясняется этой множественной линейной регрессией «multi_fit».
80% означает, что на самом деле модель MR хорошо подходит… это означает, что фактические данные довольно близки к подобранной линии…
Оценка R2 представляет собой число от 0 до 1,
- 1 указывает на идеальную посадку
- 0 указывает на отсутствие соответствия.
Рассчитать MSE для MR
а) Шаг 1: Сделайте прогноз
б) Шаг 2: Найдите MSE
СКО = 1,2 х 1⁰⁷
MSE 0 указывает на идеальное соответствие
MSE бесконечности указывает на совершенно неточную подгонку.
Однако это крайние случаи и редко встречаются на практике.
Более реалистичный диапазон MSE для регрессионных моделей составляет от 0 до 100.
MSE 10 или меньше считается подходящим
MSE 100 и более считается плохой подгонкой.
Хорошо или плохо зависит от конкретного приложения.
Набор данных большего размера обычно дает более низкую MSE.
Модель с большим количеством функций обычно дает более высокий MSE.
Более сложная модель обычно дает более высокую MSE.
Часть V: Модель простой линейной регрессии (SLR) и модель множественной линейной регрессии (MLR)
1. Вспомните простую линейную регрессию (SLR)…
Мы использовали «хайвей-миль на галлон» вместо «цены».
R2 для SLR был: 0,49659118843391759
MSE для зеркальной фотокамеры: 3,16 x 10⁷.
2. Теперь о множественной линейной регрессии (MLR)…
В этой статье мы использовали множественную линейную регрессию (MLR):
- Мощность, снаряженная масса, объем двигателя и расход топлива на галлон в сравнении с ценой
R2 для MLR: 0,80896354913783497.
MSE для MLR был: 1,2 x 10⁷
3. Сравнение…
R2 в сочетании с MSE показывает, что MLR кажется лучшей моделью, подходящей в этом случае, по сравнению с SLR.
О докторе Элвине Анге
Доктор Элвин Анг получил степень доктора философии, магистра и бакалавра в NTU, Сингапур. Ранее он был главным консультантом (наука о данных), а также доцентом. Он также был адъюнкт-лектором SUSS в течение 8 лет. Его внимание и интерес сосредоточены в области науки о данных в реальном мире. Хотя по образованию он операционный исследователь, его страсть к практическим применениям перевешивает его академическое образование. Он ученый, предприниматель, а также личный/деловой консультант.
Подробнее о нем на www.AlvinAng.sg.