Данные, используемые в этом проекте, были собраны в ходе переписи, проведенной в Калифорнии в 1999 году. Это проект по прогнозированию цен на жилье в Карлифонии, который начинается с:
1 Исследование и очистка данных
Наш набор данных имеет 10 столбцов, перечисленных выше.
Сначала я заменил нулевые значения в столбцах общего количества комнат и общего количества спален средним значением.
2. Визуализация
Я начал строить графики распределения домохозяйств и среднего дохода в зависимости от близости к океану.
Затем нужно было использовать точечный график для отображения местоположения домохозяйств с использованием столбцов широты и долготы в нашем наборе данных.
Я визуализировал распределение населения.
Я использовал функцию корреляции, чтобы выяснить, какие функции влияют на нашу маркировку «медианной стоимости дома».
Затем я использовал фиктивные переменные в столбце близости к океану, чтобы изменить значения на числовые.
3. Разделение набора данных на набор для обучения, набор для проверки и набор для тестирования.
4. Разделение данных на ярлыки и функции
Затем я создал конвейер для размещения импутера, скейлера и алгоритма.
5. Подгонка обучения и обучение алгоритма.
линейная регрессия.
Среднеквадратическая ошибка (RMSE) составила 68167,12, что является средним значением того, насколько неверен наш прогноз. Я оптимизировал модель, чтобы снизить оценку.
Перекрестная проверка
Это разбивает тренировочный набор на n частей и обучает n-1, а остальные использует для оценки.
Подбор модели RandomForestRegressor
RMSE был 50348,86
Подбор модели KernelRidge
RMSE был 251442,26
Подбор модели регрессора K ближайших соседей
RMSE был 63357,20.
Подбор модели регрессора стохастического градиентного спуска
RMSE составляет 13191302,80.
Параметры настройки
Модель с самым низким RMSE 50348,86 — это регрессор случайного леса. Поэтому я выбрал его для настройки и оптимизации.
Вывод лучших параметров и получение итоговой оценки.
Наша окончательная оценка RMSE составляет 76091,48 долларов США. Ссылка на мой гитхаб