В этом примере использования Data Science пошагово описан процесс построения прогноза цен на жилье.
Некоторые технологии, используемые для этой модели: 1) python 2) Numpy и pandas 3) Matplotlib 4) Sklearn
Для этой модели используется набор данных о ценах на дом в Бангалоре из kaggle.
Давайте начнем с данных, этот набор данных содержит некоторую основную информацию о домах, такую как тип площади, местоположение, размер, цена и т. д.…
Первый шаг — мы удаляем ненужные данные из этого набора данных, которые не влияют на оценку цены, такие как тип площади, общество, балкон и доступность. поэтому после удаления этих данных наш набор данных
Теперь мы начинаем с процесса очистки данных, мы проверяем, есть ли нулевые значения в наборе данных или нет? Таким образом, в наборе данных нет нулевых значений. которые так упрощают работу.
проверьте значения с плавающей запятой в total_sqft, например 2100–2850, мы должны преобразовать этот тип данных с плавающей запятой в целочисленный тип данных.
теперь разделите данные о размерах с пространством и создайте новую функцию под названием BHK, которая содержит количество комнат в доме.
Вот как мы конвертируем число с плавающей запятой в целое число.
Теперь давайте сделаем EDA и создадим новую функцию, используя price и total_sqft.
«Уменьшение размерности», имеющее множество значений в расположении, может повлиять на модель, поэтому мы уменьшаем ее.
создайте функцию, которая содержит все местоположения, имеющие состояние менее 10, и замените на «другое».
«Удалить выбросы» Здесь мы видим, что минимальная цена за квадратный фут составляет 267 рупий за квадратный фут, а максимальная — 176470, что показывает широкий разброс цен на недвижимость. Мы должны удалить выбросы для каждого местоположения, используя среднее значение и одно стандартное отклонение.
Давайте проверим, как для данного местоположения выглядят цены на недвижимость 2 BHK и 3 BHK.
Мы также должны удалить объекты, в которых для одного и того же местоположения цена (например) квартиры с 3 спальнями меньше, чем квартира с 2 спальнями (с той же площадью в квадратных футах). Что мы будем делать, так это для данного местоположения, мы создадим словарь статистики для каждого блока, т.е.
{ '1' : { 'среднее': 4000, 'стандартное значение: 2000, 'количество': 34}, '2' : { 'среднее': 4300, 'стандартное значение: 2300, 'количество': 22},
}
создать модель с помощью линейной регрессии.
Используйте перекрестную проверку K Fold для измерения точности нашей модели линейной регрессии.
Найти лучшую модель с помощью GridSearchCV
Создайте функцию для использования модели и проверьте модель на несколько свойств.
Так работает модель оценки цен в сфере недвижимости.
Мотивация: – основы кода.