КОДЕКС

Как определить стоимость жилья на Airbnb в Сиэтле

Введение

Вы слишком долго сидели дома? Начиная с 2021 года, это был тяжелый год с тех пор, как мы узнали о новостях о вирусе. По сообщениям средств массовой информации, путешествия и отдых набирают обороты по мере того, как экономика начинает вновь открываться.

Вы можете задаться вопросом: «Какова сейчас стоимость поездки?» или «Как обстоят дела в сфере туризма и отдыха в местных городах?».

Сегодня мы получаем всевозможную информацию из различных источников. Было бы здорово, если бы мы могли смотреть на фактические данные и позволить им говорить с нами? Я загрузил последние данные Airbnb Seattle с Inside Airbnb, некоммерческого сайта, предоставляющего наборы данных, описывающие деятельность Airbnb по листингу.

Наборы данных, которые я использовал, представляют собой набор данных списков, который охватывает 3356 различных списков с информацией о недвижимости, и набор данных календаря, который включает цены и доступность списков на дату сбора данных (то есть 21.02.2021).

Часть 1. Влияет ли местоположение на цену?

Первый вопрос, который мы задаем при выборе Airbnb, обычно касается местоположения. Здесь мы изучаем набор данных списка, нанося точечные диаграммы долготы и широты, чтобы получить приблизительную карту Сиэтла. Цвет кругов представляет собой разницу в цене, и чем больше круг, тем больше людей может вместить недвижимость.

Мы можем видеть, что в центре города много предложений, но нет четкой закономерности, показывающей, что объявления в густонаселенных районах относительно дороги. Дорогостоящий Airbnb буквально разбросан по карте, обозначенной оранжевыми и красными кружками. На самом деле, большие круги, как правило, дороже, чем маленькие, поэтому размер собственности имеет значение, когда хозяева определяют цену проживания.

Часть 2: Есть ли сезонность в цене в следующем году?

Мы обращаемся к набору данных календаря, чтобы увидеть, как цена и доступность будут выглядеть на год вперед. Вот еще один разброс с датой по оси x и ценой по оси y. Каждая точка показывает цену листинга Airbnb на конкретную дату. Каждый цвет представляет отдельный список.

Одно объявление четко показывает сезонность, так что его цена достигает максимума летом и подскакивает во время праздников зимой, но одного объявления недостаточно, чтобы сделать вывод, что сезонность также распространяется и на другие объявления. Давайте увеличим масштаб, чтобы увидеть списки до 2000 долларов.

По сути, на графике показаны две группы объявлений: одна с прямыми линиями со стабильной ценой в течение года, а другая с аналогичным сезонным рисунком, который мы видели выше. Хотя четкой границы нет, линейная группа обычно ближе к нижней границе ценового диапазона, а сезонная группа относительно дороже.

Часть 3: Построение моделей для прогнозирования цены

Теперь, когда мы рассмотрели некоторые исследования данных, давайте попробуем построить прогностические модели. Прежде чем что-либо делать с набором данных, важно разделить набор данных на обучающий набор и тестовый набор и убедиться, что наши модели не «видят» тестовый набор, пока мы не закончим построение моделей. Мы будем использовать тестовый набор для оценки производительности наших моделей.

Для этой части используются листинговые данные. Я подготовил список данных, очистив, агрегировав и закодировав функции, чтобы передать их в наши модели.

Затем я использовал перекрестную проверку с 10-кратной проверкой моделей линейной регрессии и случайного леса, и результаты среднеквадратичной ошибки (RMSE) составили 94,24 и 87,66 соответственно. Чем ниже RMSE, тем лучше производительность. Random Forest выглядит здесь лучше.

Мы можем дополнительно оптимизировать модель Random Forest, используя RandomizedSearchCV из инструментов Scikit-Learn для точной настройки гиперпараметров. Результат следующий:

RMSE: 92.44 
Parameters: {'max_depth': 44, 'max_features': 18, 'min_samples_leaf': 18, 'n_estimators': 141}

Теперь, когда мы закончили построение моделей, мы посмотрим, как они работают на тестовом наборе. Линейная регрессия дает RMSE 63,73, а случайный лес дает RMSE 62,04. Удивительно, но эти два результата не так уж далеки друг от друга. Простая модель, такая как линейная регрессия, также работает с этим набором данных.

Важность функции

Давайте теперь посмотрим на основные функции, которые влияют на прогнозы цены по двум моделям. Списки отсортированы, поэтому функции в верхней части имеют большее значение.

«размещение», «спальни» и «ванные комнаты» отображаются вверху. Все они связаны с размером собственности, что подтверждает наш вывод из приведенного выше графика карты Сиэтла.

На втором месте — доступность и отзывы, поэтому долгосрочный или популярный домик может быть дороже. Здесь интересно увидеть долготу и широту, но они не так важны, как рассмотренные выше функции.

Вывод

Мы провели исследовательский анализ данных и смоделировали наборы данных Airbnb Seattle за 2021 год.

  1. Местоположение объекта — важная характеристика, которую следует учитывать, когда туристы или местные жители выбирают Airbnb, но местоположение не имеет сильной связи с ценой среди других характеристик.
  2. Сезонность — это четкая закономерность для некоторых дорогих Airbnb. Недвижимость по доступным ценам предлагает стабильные цены в течение всего года.
  3. Размер объекта Airbnb – главный определяющий фактор цены. По сути, на цену жилья больше всего влияет то, сколько человек может разместиться в нем.

Из данных Airbnb можно извлечь гораздо больше информации, например из отзывов. Если вас интересуют данные Airbnb, вот ссылка Inside Airbnb: http://insideairbnb.com/index.html

Чтобы увидеть подготовку данных и моделирование под капотом в этой статье, посмотрите мой код на GitHub, доступный Здесь.