В этом примере использования Data Science пошагово описан процесс построения прогноза цен на жилье.

Некоторые технологии, используемые для этой модели: 1) python 2) Numpy и pandas 3) Matplotlib 4) Sklearn

Для этой модели используется набор данных о ценах на дом в Бангалоре из kaggle.

Давайте начнем с данных, этот набор данных содержит некоторую основную информацию о домах, такую ​​как тип площади, местоположение, размер, цена и т. д.…

Первый шаг — мы удаляем ненужные данные из этого набора данных, которые не влияют на оценку цены, такие как тип площади, общество, балкон и доступность. поэтому после удаления этих данных наш набор данных

Теперь мы начинаем с процесса очистки данных, мы проверяем, есть ли нулевые значения в наборе данных или нет? Таким образом, в наборе данных нет нулевых значений. которые так упрощают работу.

проверьте значения с плавающей запятой в total_sqft, например 2100–2850, мы должны преобразовать этот тип данных с плавающей запятой в целочисленный тип данных.

теперь разделите данные о размерах с пространством и создайте новую функцию под названием BHK, которая содержит количество комнат в доме.

Вот как мы конвертируем число с плавающей запятой в целое число.

Теперь давайте сделаем EDA и создадим новую функцию, используя price и total_sqft.

«Уменьшение размерности», имеющее множество значений в расположении, может повлиять на модель, поэтому мы уменьшаем ее.

создайте функцию, которая содержит все местоположения, имеющие состояние менее 10, и замените на «другое».

«Удалить выбросы» Здесь мы видим, что минимальная цена за квадратный фут составляет 267 рупий за квадратный фут, а максимальная — 176470, что показывает широкий разброс цен на недвижимость. Мы должны удалить выбросы для каждого местоположения, используя среднее значение и одно стандартное отклонение.

Давайте проверим, как для данного местоположения выглядят цены на недвижимость 2 BHK и 3 BHK.

Мы также должны удалить объекты, в которых для одного и того же местоположения цена (например) квартиры с 3 спальнями меньше, чем квартира с 2 спальнями (с той же площадью в квадратных футах). Что мы будем делать, так это для данного местоположения, мы создадим словарь статистики для каждого блока, т.е.

{ '1' : { 'среднее': 4000, 'стандартное значение: 2000, 'количество': 34}, '2' : { 'среднее': 4300, 'стандартное значение: 2300, 'количество': 22},
}

создать модель с помощью линейной регрессии.

Используйте перекрестную проверку K Fold для измерения точности нашей модели линейной регрессии.

Найти лучшую модель с помощью GridSearchCV

Создайте функцию для использования модели и проверьте модель на несколько свойств.

Так работает модель оценки цен в сфере недвижимости.

Мотивация: – основы кода.