Введение

Начать бизнес Airbnb в Нью-Йорке, туристическом направлении №1 в США, может быть одновременно и волнительно, и нервно. С одной стороны, вы, вероятно, слышали о многочисленных успешных историях и хотите испытать свою удачу. С другой стороны, вас могут беспокоить фундаментальные вопросы, например, в какую недвижимость инвестировать и какова справедливая цена вашего листинга.

Один из хороших способов ответить на этот вопрос — просмотреть исторические списки. В этой статье я проведу вас через такой набор данных. Он регистрирует все списки Airbnb в Нью-Йорке за 2019 год с такими подробностями, как цена и местоположение. Анализируя его, я попытаюсь дать три совета, которые помогут новым хозяевам начать прибыльный бизнес на Airbnb:

  1. Стратегии поиска инвестиционной недвижимости для листинга
  2. Стратегии ценообразования листинга
  3. Стратегии названия/описания листинга

Эта статья будет посвящена только результатам моего анализа. Вы можете посетить мой репозиторий Github для подробного анализа и всего кода Python.

Краткий обзор набора данных

Прежде чем углубляться в мои стратегии, давайте сначала взглянем на набор данных. Необработанные данные представляют собой CSV-файл с 48895 списками и 16 столбцами, как показано ниже. Столбцы 0 и 1 содержат идентификаторы списка; столбцы 2, 3 и 14 — информация о хосте; столбцы 4–7 — информация о местоположении; а в столбцах 8–13 и 15 перечислены особенности. По неизвестной причине отсутствует менее 1% элементов name и host_name. Около 20% last_review и reviews_per_month отсутствуют, потому что эти списки не получили ни одного обзора.

RangeIndex: 48895 entries, 0 to 48894
Data columns (total 16 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   id                              48895 non-null  int64  
 1   name                            48879 non-null  object 
 2   host_id                         48895 non-null  int64  
 3   host_name                       48874 non-null  object 
 4   neighbourhood_group             48895 non-null  object 
 5   neighbourhood                   48895 non-null  object 
 6   latitude                        48895 non-null  float64
 7   longitude                       48895 non-null  float64
 8   room_type                       48895 non-null  object 
 9   price                           48895 non-null  int64  
 10  minimum_nights                  48895 non-null  int64  
 11  number_of_reviews               48895 non-null  int64  
 12  last_review                     38843 non-null  object 
 13  reviews_per_month               38843 non-null  float64
 14  calculated_host_listings_count  48895 non-null  int64  
 15  availability_365                48895 non-null  int64  
dtypes: float64(3), int64(7), object(6)

Далее давайте подробнее рассмотрим некоторые важные столбцы.

район_группа и район

В этих двух столбцах указывается приблизительное местонахождение каждого свойства листинга. В столбце neighbourhood_group указан район в списке с 5 уникальными значениями: Манхэттен, Бруклин, Квинс, Бронкс и Статен-Айленд. В столбце neighbourhood указан район с 221 уникальным значением, например Чайнатаун ​​и Верхний Ист-Сайд.

цена

В этом столбце записывается цена за ночь. Основные статистические данные, приведенные ниже, определенно показывают некоторые отклонения: некоторые списки, как ни странно, бесплатны, в то время как самые дорогие списки просят 10000 долларов за ночь!

mean       152.72
std        240.15
min          0.00
10%         49.00
50%        106.00
90%        269.00
max      10000.00

минимум_ночей (гистограмма)

В этом столбце указано минимальное количество ночей за весь период проживания, требуемое хозяином на момент бронирования. Для семидесяти пяти процентов объявлений требуется 5 ночей или менее за пребывание, но есть исключения, необоснованно требующие 1250 ночей.

mean         7.03
std         20.51
min          1.00
25%          1.00
50%          3.00
75%          5.00
max       1250.00

отзывов_за_месяц

В этом столбце записывается среднее количество отзывов в месяц. Если вам удается получать 1 отзыв в месяц, вы уже обгоняете более 50% хозяев Airbnb.

mean         1.37
std          1.68
min          0.01
25%          0.19
50%          0.72
75%          2.02
max         58.50

доступность_365

В этом столбце записывается общее количество доступных дней для каждого списка. Обратите внимание, что некоторые списки вообще недоступны, и их, вероятно, следует исключить из следующего анализа.

mean       112.78
std        131.62
min          0.00
25%          0.00
50%         45.00
75%        227.00
max        365.00

В целом необработанный набор данных чист и понятен, но содержит некоторые выбросы. Чтобы повысить релевантность этого набора данных для новых хозяев Airbnb, я отфильтровал необработанный набор данных, используя ценовой диапазон (0, 270] (0–90 % процентиль), минимальный правильный диапазон (0, 28] (0–90% процентиль) и диапазон доступности (0,365]. Это сузило набор данных с 48 895 до 23 938 объявлений.

Стратегии поиска инвестиционной недвижимости для листинга

Теперь углубимся в анализ. Если у вас еще нет недвижимости, поиск инвестиционной недвижимости может стать вашим первым шагом. Моя стратегия поиска инвестиционной недвижимости состоит в том, чтобы ответить на три вопроса: Какие районы популярны? Какие районы дорогие? Люди обычно перечисляют всю квартиру или отдельную комнату? Давай выясним.

Какие районы популярны (больше объявлений)?

Я отвечаю на этот вопрос с помощью двух графиков ниже: распределение списков среди пяти районов Нью-Йорка и 20 районов с наибольшим количеством списков. Среди пяти районов определенно доминируют Манхэттен и Бруклин, что логично, поскольку это два самых исторических и густонаселенных района Нью-Йорка. Что касается районов, 20 самых популярных районов в основном находятся на Манхэттене, за ними следуют Бруклин и Квинс.

Brooklyn         10333
Manhattan         8636
Queens            3820
Bronx              848
Staten Island      301

Какие районы дорогие (более высокая цена)?

Затем я изучил средние листинговые цены в каждом районе. Ниже представлены 20 самых дорогих районов. Пятнадцать из них находятся на Манхэттене, а остальные — в Бруклине, цена варьируется от 194 до 136 долларов за ночь.

Какие районы популярны и дороги? Оказывается, в обоих рейтингах фигурирует 7 районов: Челси, Ист-Виллидж, Адская кухня, Нижний Ист-Сайд, Мидтаун, Верхний Ист-Сайд и Верхний Вест-Сайд. Чтобы дать вам более интуитивное представление о популярных и дорогих районах, я проиллюстрировал их на картах ниже. Вы можете видеть, что все перекрывающиеся районы находятся на Манхэттене.

Вся квартира или отдельная комната?

Что делать, если у вас нет целой квартиры/дома? Можно ли предлагать только свободную комнату? Давайте посмотрим, как поступили другие хозяева Airbnb. Ниже я начертил распределение типов номеров по всем объявлениям. Удивительно, но почти половина объявлений предлагают только отдельную комнату, а 3% объявлений даже предлагают общую комнату. Это может быть редкостью в других городах, но имеет смысл в Нью-Йорке, потому что жилая площадь здесь ограничена, а цены на жилье заоблачные!

.

.

Private room       12540
Entire home/apt    10645
Shared room          753

.

.

.

Краткое содержание

Мы нашли 7 популярных и дорогих районов, которые могут стать отличным стартом для таких новых хозяев Airbnb, как вы. Мы также обнаружили, что половина объявлений в Нью-Йорке предлагают только отдельную комнату, так что вы все равно можете стать хозяином Airbnb, если все, что вы можете себе позволить, — это дополнительную спальню (или даже гостиную).

Однако имейте в виду, что популярные районы также могут означать острую конкуренцию между хозяевами, а дорогие районы могут означать более высокую стоимость владения недвижимостью. Следовать тренду и стать хозяином в этих районах или заполнить нишу и найти менее представленный район? Это ваше собственное решение.

Стратегии ценообразования листинга

После того, как вы определились с недвижимостью, следующим шагом будет определение цены. Моя стратегия состоит в том, чтобы обучить модель регрессии на основе прошлых листингов и использовать модель для определения цены нового листинга.

Обратите внимание, что не все списки в наборе данных следует использовать для обучения модели, потому что не все списки были оценены разумно. Моя модель была обучена с использованием объявлений со средним количеством отзывов не менее 0,72 в месяц (медиана набора данных), поскольку я предположил, что эти объявления привлекают больше гостей, чем аналогичные объекты, отчасти из-за разумной цены. Это сузило набор данных до 15138 списков, которые затем были разделены на обучающие и тестовые наборы данных с использованием классического коэффициента разделения 20%.

Я использовал регрессор случайного леса с 7 функциями из набора данных: neighbourhood_group, neighbourhood_group, room_type, minimum_nights, количество_отзывов, отзывов_в_месяц и доступность_365. Категориальные функции были сначала преобразованы в числовые с использованием горячего кодирования, которое расширило исходные 7 функций до 222 функций. Затем поиск по сетке с 5-кратной перекрестной проверкой использовался для настройки четырех гиперпараметров: n_estimators, max_features, min_samples_leaf и max_depth.

Наконец, лучшая модель была протестирована как на обучающем, так и на тестовом наборе данных, а среднеквадратические ошибки (MSE) приведены ниже. Обратите внимание, что MSE обучающих данных меньше, чем MSE тестовых данных, что является признаком переобучения. Один из способов борьбы с переоснащением — настроить гиперпараметры с перекрестной проверкой, что и было сделано в данном случае. Другой способ — увеличить размер обучающих данных, поэтому может помочь извлечение большего количества исторических списков за годы, отличные от 2019 года.

MSE of training data: 675.98
MSE of test data: 1301.57

Предсказанные цены листинга также нанесены на график относительно истинных цен листинга для тестовых данных, как показано ниже. Как правило, точки рассеяния лежат вдоль диагональной линии y = x. В левом верхнем углу больше выбросов, чем в правом нижнем углу, а это означает, что модель скорее занижает, чем завышает цены листинга. Вероятно, это связано с тем, что некоторые факторы, которые могут повысить цену, не включены в регрессор, например, дополнительное количество гостей, которые может принять квартира/комната, доступность жилья во время Рождества, вид на Эмпайр Стейт Здание с частной террасы и близость к станциям метро.

Стратегии названия/описания листинга

Как хозяева привлекают гостей названиями объявлений? Выясним это, посчитав частоту слов в заголовках (столбец name). Заголовки сначала были предварительно обработаны в «токены» в пять этапов:

  1. Нормализация. Все слова были переведены в нижний регистр.
  2. Токенизация. Слова были разделены пробелами или знаками препинания.
  3. Удаление стоп-слов. Стоп-слова, которые являются общеупотребительными словами, не добавляющими много информации (например, артикли, предлоги и союзы), были отброшены и не учитывались.
  4. лемматизация. Слова были преобразованы в его лемму на основе предполагаемого значения. Например, слово better содержит хорошо в качестве леммы, и они, по сути, означают одно и то же, поэтому они учитывались в одной и той же лемме.
  5. Стемминг. Слова были изменены или получены из их основы слова (базовая или корневая форма). Например, слова argue, argued и arguing имеют один и тот же корень argu.

После предварительной обработки 20 самых распространенных токенов представлены ниже. Некоторые токены, такие как spaciou (просторный), не являются полным словом из-за образования корня.

Эти токены можно разделить на четыре категории: токены, описывающие тип комнаты (спальня, апартаменты, студия, дом > и др.); токены, описывающие местоположение (Бруклин, Манхэттен, Нью-Йорк и т. д.); токены, описывающие удобства (парк), и токены, описывающие отличительные особенности (частный, уют, просторный и т. д. .).

Таким образом, сделайте название объявления информативным, охватив четыре аспекта: тип номера, расположение, удобства и отличительные особенности — это поможет потенциальным гостям с первого взгляда получить ключевую информацию!

Выводы

Мы просмотрели набор данных прошлых списков Airbnb в Нью-Йорке, которые предоставили много информации для начинающих хозяев Airbnb. Основные выводы:

  • Мы нашли 7 районов, которые были одновременно популярными и дорогими в 2019 году, и все они на Манхэттене.
  • Мы заметили, что отдельная комната является особенно популярным типом комнаты в Нью-Йорке, который составляет почти половину списков Airbnb.
  • Мы обучили регрессионную модель предложенной цене, основанной на местоположении, типе номера, доступности и отзывах гостей. Модель иногда занижала цену листинга, что потенциально можно исправить, включив в модель дополнительные функции, такие как количество гостей, которое может принять отель.
  • Мы обнаружили четыре наиболее часто упоминаемых аспекта в названиях объявлений: тип номера, расположение, удобства и отличительные черты.

Эти выводы могут помочь хозяевам Airbnb принять решение на начальном этапе. В будущих исследованиях можно будет получить больше наборов данных для получения более полной картины, например, набор данных о недвижимости, в котором фиксируются цены продажи каждого объекта, набор данных о преступности, в котором регистрируется уровень преступности в каждом районе, и общедоступный набор транспортных данных, который обеспечивает близость каждого объекта к станции метро/паромному терминалу.