Страховой прогноз с использованием методов регрессии машинного обучения

В этом блоге мы говорим о том, как предварительно обрабатывать данные и как найти лучшую модель для обучения данных, чтобы получать хорошие прогнозы на будущее.

Мы используем методы регрессии, такие как дерево решений, случайный лес, множественная линейная регрессия, полиномиальная регрессия, случайный лес, SVM.

НАБОР ДАННЫХ **************************************************** *

Персональные наборы данных о расходах на медицинское обслуживание
Загружайте открытые наборы данных по тысячам проектов + делитесь проектами на одной платформе. Исследуйте популярные темы, такие как правительство…www.kaggle.com

Данные содержат 7clomns, 1338 строк

Столбцы —

. возраст

. секс

. ИМТ

. дети

. курильщик

. регион

. расходы (ярлык)

нашего целевого ярлыка сборы, нам нужно спрогнозировать сборы на основе функций.

***********************************************

ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ДАННЫХ

***********************************************

Импорт библиотек

Импорт данных

Устранениенедостающих данных (используя Imputer)

КодированиеКатегориальные данные (с использованием LabelEncoder, OneHotEncoder)

Разделение данных на данные обучения и тестирования

Масштабирование функций (Нормализация)

Теперь мы нормализуем данные, чтобы убедиться, что разные функции принимают одинаковый диапазон значений. Для этой цели мы используем StandarScaler().

Теперь у нас есть данные для обучения и тестирования, которые были нормализованы, и мы можем приступить к обучению различных моделей для прогнозирования сборов (метка).