В этом блоге мы говорим о том, как предварительно обрабатывать данные и как найти лучшую модель для обучения данных, чтобы получать хорошие прогнозы на будущее.

Мы используем методы регрессии, такие как дерево решений, случайный лес, множественная линейная регрессия, полиномиальная регрессия, случайный лес, SVM.

НАБОР ДАННЫХ **************************************************** *



Данные содержат 7clomns, 1338 строк

Столбцы —

. возраст

. секс

. ИМТ

. дети

. курильщик

. регион

. расходы (ярлык)

нашего целевого ярлыка сборы, нам нужно спрогнозировать сборы на основе функций.

***********************************************

ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ДАННЫХ

***********************************************

Импорт библиотек

Импорт данных

Устранениенедостающих данных (используя Imputer)

КодированиеКатегориальные данные (с использованием LabelEncoder, OneHotEncoder)

Разделение данных на данные обучения и тестирования

Масштабирование функций (Нормализация)

Теперь мы нормализуем данные, чтобы убедиться, что разные функции принимают одинаковый диапазон значений. Для этой цели мы используем StandarScaler().

Теперь у нас есть данные для обучения и тестирования, которые были нормализованы, и мы можем приступить к обучению различных моделей для прогнозирования сборов (метка).

***********************************************

РЕГРЕССИОННЫЕ МОДЕЛИ

***********************************************

Дерево решений

Случайный лес

Множественная линейная регрессия

Полиномиальная регрессия

SVM

***********************************************

ЗАКЛЮЧЕНИЕ

Средняя абсолютная ошибка — плохо работает при большом масштабе данных.

Среднеквадратичная ошибка — полезно, когда масштаб предсказания высок.

Среднеквадратичная логарифмическая ошибка — полезно, когда масштаб прогноза слишком высок, когда логарифм уменьшает его.

Ошибка квадрата R — очень популярная!

Но мы не должны сравнивать разные матрицы регрессии друг с другом.

Для большей ясности прочитайте этот пост —





Итак, здесь я сравниваю модели с MAE.
У Random Forest меньше MAE, поэтому мы можем сделать вывод, что Random Forest лучше всего подходит для приведенных выше данных.

***********************************************

***************************КОНЕЦ*************** *****************

***********************************************