Данные, используемые в этом проекте, были собраны в ходе переписи, проведенной в Калифорнии в 1999 году. Это проект по прогнозированию цен на жилье в Карлифонии, который начинается с:

1 Исследование и очистка данных

Наш набор данных имеет 10 столбцов, перечисленных выше.

Сначала я заменил нулевые значения в столбцах общего количества комнат и общего количества спален средним значением.

2. Визуализация

Я начал строить графики распределения домохозяйств и среднего дохода в зависимости от близости к океану.

Затем нужно было использовать точечный график для отображения местоположения домохозяйств с использованием столбцов широты и долготы в нашем наборе данных.

Я визуализировал распределение населения.

Я использовал функцию корреляции, чтобы выяснить, какие функции влияют на нашу маркировку «медианной стоимости дома».

Затем я использовал фиктивные переменные в столбце близости к океану, чтобы изменить значения на числовые.

3. Разделение набора данных на набор для обучения, набор для проверки и набор для тестирования.

4. Разделение данных на ярлыки и функции

Затем я создал конвейер для размещения импутера, скейлера и алгоритма.

5. Подгонка обучения и обучение алгоритма.

линейная регрессия.

Среднеквадратическая ошибка (RMSE) составила 68167,12, что является средним значением того, насколько неверен наш прогноз. Я оптимизировал модель, чтобы снизить оценку.

Перекрестная проверка

Это разбивает тренировочный набор на n частей и обучает n-1, а остальные использует для оценки.

Подбор модели RandomForestRegressor

RMSE был 50348,86

Подбор модели KernelRidge

RMSE был 251442,26

Подбор модели регрессора K ближайших соседей

RMSE был 63357,20.

Подбор модели регрессора стохастического градиентного спуска

RMSE составляет 13191302,80.

Параметры настройки

Модель с самым низким RMSE 50348,86 — это регрессор случайного леса. Поэтому я выбрал его для настройки и оптимизации.

Вывод лучших параметров и получение итоговой оценки.

Наша окончательная оценка RMSE составляет 76091,48 долларов США. Ссылка на мой гитхаб