Введение
Начать бизнес Airbnb в Нью-Йорке, туристическом направлении №1 в США, может быть одновременно и волнительно, и нервно. С одной стороны, вы, вероятно, слышали о многочисленных успешных историях и хотите испытать свою удачу. С другой стороны, вас могут беспокоить фундаментальные вопросы, например, в какую недвижимость инвестировать и какова справедливая цена вашего листинга.
Один из хороших способов ответить на этот вопрос — просмотреть исторические списки. В этой статье я проведу вас через такой набор данных. Он регистрирует все списки Airbnb в Нью-Йорке за 2019 год с такими подробностями, как цена и местоположение. Анализируя его, я попытаюсь дать три совета, которые помогут новым хозяевам начать прибыльный бизнес на Airbnb:
- Стратегии поиска инвестиционной недвижимости для листинга
- Стратегии ценообразования листинга
- Стратегии названия/описания листинга
Эта статья будет посвящена только результатам моего анализа. Вы можете посетить мой репозиторий Github для подробного анализа и всего кода Python.
Краткий обзор набора данных
Прежде чем углубляться в мои стратегии, давайте сначала взглянем на набор данных. Необработанные данные представляют собой CSV-файл с 48895 списками и 16 столбцами, как показано ниже. Столбцы 0 и 1 содержат идентификаторы списка; столбцы 2, 3 и 14 — информация о хосте; столбцы 4–7 — информация о местоположении; а в столбцах 8–13 и 15 перечислены особенности. По неизвестной причине отсутствует менее 1% элементов name и host_name. Около 20% last_review и reviews_per_month отсутствуют, потому что эти списки не получили ни одного обзора.
RangeIndex: 48895 entries, 0 to 48894 Data columns (total 16 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 id 48895 non-null int64 1 name 48879 non-null object 2 host_id 48895 non-null int64 3 host_name 48874 non-null object 4 neighbourhood_group 48895 non-null object 5 neighbourhood 48895 non-null object 6 latitude 48895 non-null float64 7 longitude 48895 non-null float64 8 room_type 48895 non-null object 9 price 48895 non-null int64 10 minimum_nights 48895 non-null int64 11 number_of_reviews 48895 non-null int64 12 last_review 38843 non-null object 13 reviews_per_month 38843 non-null float64 14 calculated_host_listings_count 48895 non-null int64 15 availability_365 48895 non-null int64 dtypes: float64(3), int64(7), object(6)
Далее давайте подробнее рассмотрим некоторые важные столбцы.
район_группа и район
В этих двух столбцах указывается приблизительное местонахождение каждого свойства листинга. В столбце neighbourhood_group указан район в списке с 5 уникальными значениями: Манхэттен, Бруклин, Квинс, Бронкс и Статен-Айленд. В столбце neighbourhood указан район с 221 уникальным значением, например Чайнатаун и Верхний Ист-Сайд.
цена
В этом столбце записывается цена за ночь. Основные статистические данные, приведенные ниже, определенно показывают некоторые отклонения: некоторые списки, как ни странно, бесплатны, в то время как самые дорогие списки просят 10000 долларов за ночь!
mean 152.72 std 240.15 min 0.00 10% 49.00 50% 106.00 90% 269.00 max 10000.00
минимум_ночей (гистограмма)
В этом столбце указано минимальное количество ночей за весь период проживания, требуемое хозяином на момент бронирования. Для семидесяти пяти процентов объявлений требуется 5 ночей или менее за пребывание, но есть исключения, необоснованно требующие 1250 ночей.
mean 7.03 std 20.51 min 1.00 25% 1.00 50% 3.00 75% 5.00 max 1250.00
отзывов_за_месяц
В этом столбце записывается среднее количество отзывов в месяц. Если вам удается получать 1 отзыв в месяц, вы уже обгоняете более 50% хозяев Airbnb.
mean 1.37 std 1.68 min 0.01 25% 0.19 50% 0.72 75% 2.02 max 58.50
доступность_365
В этом столбце записывается общее количество доступных дней для каждого списка. Обратите внимание, что некоторые списки вообще недоступны, и их, вероятно, следует исключить из следующего анализа.
mean 112.78 std 131.62 min 0.00 25% 0.00 50% 45.00 75% 227.00 max 365.00
В целом необработанный набор данных чист и понятен, но содержит некоторые выбросы. Чтобы повысить релевантность этого набора данных для новых хозяев Airbnb, я отфильтровал необработанный набор данных, используя ценовой диапазон (0, 270] (0–90 % процентиль), минимальный правильный диапазон (0, 28] (0–90% процентиль) и диапазон доступности (0,365]. Это сузило набор данных с 48 895 до 23 938 объявлений.
Стратегии поиска инвестиционной недвижимости для листинга
Теперь углубимся в анализ. Если у вас еще нет недвижимости, поиск инвестиционной недвижимости может стать вашим первым шагом. Моя стратегия поиска инвестиционной недвижимости состоит в том, чтобы ответить на три вопроса: Какие районы популярны? Какие районы дорогие? Люди обычно перечисляют всю квартиру или отдельную комнату? Давай выясним.
Какие районы популярны (больше объявлений)?
Я отвечаю на этот вопрос с помощью двух графиков ниже: распределение списков среди пяти районов Нью-Йорка и 20 районов с наибольшим количеством списков. Среди пяти районов определенно доминируют Манхэттен и Бруклин, что логично, поскольку это два самых исторических и густонаселенных района Нью-Йорка. Что касается районов, 20 самых популярных районов в основном находятся на Манхэттене, за ними следуют Бруклин и Квинс.
Brooklyn 10333 Manhattan 8636 Queens 3820 Bronx 848 Staten Island 301
Какие районы дорогие (более высокая цена)?
Затем я изучил средние листинговые цены в каждом районе. Ниже представлены 20 самых дорогих районов. Пятнадцать из них находятся на Манхэттене, а остальные — в Бруклине, цена варьируется от 194 до 136 долларов за ночь.
Какие районы популярны и дороги? Оказывается, в обоих рейтингах фигурирует 7 районов: Челси, Ист-Виллидж, Адская кухня, Нижний Ист-Сайд, Мидтаун, Верхний Ист-Сайд и Верхний Вест-Сайд. Чтобы дать вам более интуитивное представление о популярных и дорогих районах, я проиллюстрировал их на картах ниже. Вы можете видеть, что все перекрывающиеся районы находятся на Манхэттене.
Вся квартира или отдельная комната?
Что делать, если у вас нет целой квартиры/дома? Можно ли предлагать только свободную комнату? Давайте посмотрим, как поступили другие хозяева Airbnb. Ниже я начертил распределение типов номеров по всем объявлениям. Удивительно, но почти половина объявлений предлагают только отдельную комнату, а 3% объявлений даже предлагают общую комнату. Это может быть редкостью в других городах, но имеет смысл в Нью-Йорке, потому что жилая площадь здесь ограничена, а цены на жилье заоблачные!
.
.
Private room 12540 Entire home/apt 10645 Shared room 753
.
.
.
Краткое содержание
Мы нашли 7 популярных и дорогих районов, которые могут стать отличным стартом для таких новых хозяев Airbnb, как вы. Мы также обнаружили, что половина объявлений в Нью-Йорке предлагают только отдельную комнату, так что вы все равно можете стать хозяином Airbnb, если все, что вы можете себе позволить, — это дополнительную спальню (или даже гостиную).
Однако имейте в виду, что популярные районы также могут означать острую конкуренцию между хозяевами, а дорогие районы могут означать более высокую стоимость владения недвижимостью. Следовать тренду и стать хозяином в этих районах или заполнить нишу и найти менее представленный район? Это ваше собственное решение.
Стратегии ценообразования листинга
После того, как вы определились с недвижимостью, следующим шагом будет определение цены. Моя стратегия состоит в том, чтобы обучить модель регрессии на основе прошлых листингов и использовать модель для определения цены нового листинга.
Обратите внимание, что не все списки в наборе данных следует использовать для обучения модели, потому что не все списки были оценены разумно. Моя модель была обучена с использованием объявлений со средним количеством отзывов не менее 0,72 в месяц (медиана набора данных), поскольку я предположил, что эти объявления привлекают больше гостей, чем аналогичные объекты, отчасти из-за разумной цены. Это сузило набор данных до 15138 списков, которые затем были разделены на обучающие и тестовые наборы данных с использованием классического коэффициента разделения 20%.
Я использовал регрессор случайного леса с 7 функциями из набора данных: neighbourhood_group, neighbourhood_group, room_type, minimum_nights, количество_отзывов, отзывов_в_месяц и доступность_365. Категориальные функции были сначала преобразованы в числовые с использованием горячего кодирования, которое расширило исходные 7 функций до 222 функций. Затем поиск по сетке с 5-кратной перекрестной проверкой использовался для настройки четырех гиперпараметров: n_estimators, max_features, min_samples_leaf и max_depth.
Наконец, лучшая модель была протестирована как на обучающем, так и на тестовом наборе данных, а среднеквадратические ошибки (MSE) приведены ниже. Обратите внимание, что MSE обучающих данных меньше, чем MSE тестовых данных, что является признаком переобучения. Один из способов борьбы с переоснащением — настроить гиперпараметры с перекрестной проверкой, что и было сделано в данном случае. Другой способ — увеличить размер обучающих данных, поэтому может помочь извлечение большего количества исторических списков за годы, отличные от 2019 года.
MSE of training data: 675.98 MSE of test data: 1301.57
Предсказанные цены листинга также нанесены на график относительно истинных цен листинга для тестовых данных, как показано ниже. Как правило, точки рассеяния лежат вдоль диагональной линии y = x. В левом верхнем углу больше выбросов, чем в правом нижнем углу, а это означает, что модель скорее занижает, чем завышает цены листинга. Вероятно, это связано с тем, что некоторые факторы, которые могут повысить цену, не включены в регрессор, например, дополнительное количество гостей, которые может принять квартира/комната, доступность жилья во время Рождества, вид на Эмпайр Стейт Здание с частной террасы и близость к станциям метро.
Стратегии названия/описания листинга
Как хозяева привлекают гостей названиями объявлений? Выясним это, посчитав частоту слов в заголовках (столбец name). Заголовки сначала были предварительно обработаны в «токены» в пять этапов:
- Нормализация. Все слова были переведены в нижний регистр.
- Токенизация. Слова были разделены пробелами или знаками препинания.
- Удаление стоп-слов. Стоп-слова, которые являются общеупотребительными словами, не добавляющими много информации (например, артикли, предлоги и союзы), были отброшены и не учитывались.
- лемматизация. Слова были преобразованы в его лемму на основе предполагаемого значения. Например, слово better содержит хорошо в качестве леммы, и они, по сути, означают одно и то же, поэтому они учитывались в одной и той же лемме.
- Стемминг. Слова были изменены или получены из их основы слова (базовая или корневая форма). Например, слова argue, argued и arguing имеют один и тот же корень argu.
После предварительной обработки 20 самых распространенных токенов представлены ниже. Некоторые токены, такие как spaciou (просторный), не являются полным словом из-за образования корня.
Эти токены можно разделить на четыре категории: токены, описывающие тип комнаты (спальня, апартаменты, студия, дом > и др.); токены, описывающие местоположение (Бруклин, Манхэттен, Нью-Йорк и т. д.); токены, описывающие удобства (парк), и токены, описывающие отличительные особенности (частный, уют, просторный и т. д. .).
Таким образом, сделайте название объявления информативным, охватив четыре аспекта: тип номера, расположение, удобства и отличительные особенности — это поможет потенциальным гостям с первого взгляда получить ключевую информацию!
Выводы
Мы просмотрели набор данных прошлых списков Airbnb в Нью-Йорке, которые предоставили много информации для начинающих хозяев Airbnb. Основные выводы:
- Мы нашли 7 районов, которые были одновременно популярными и дорогими в 2019 году, и все они на Манхэттене.
- Мы заметили, что отдельная комната является особенно популярным типом комнаты в Нью-Йорке, который составляет почти половину списков Airbnb.
- Мы обучили регрессионную модель предложенной цене, основанной на местоположении, типе номера, доступности и отзывах гостей. Модель иногда занижала цену листинга, что потенциально можно исправить, включив в модель дополнительные функции, такие как количество гостей, которое может принять отель.
- Мы обнаружили четыре наиболее часто упоминаемых аспекта в названиях объявлений: тип номера, расположение, удобства и отличительные черты.
Эти выводы могут помочь хозяевам Airbnb принять решение на начальном этапе. В будущих исследованиях можно будет получить больше наборов данных для получения более полной картины, например, набор данных о недвижимости, в котором фиксируются цены продажи каждого объекта, набор данных о преступности, в котором регистрируется уровень преступности в каждом районе, и общедоступный набор транспортных данных, который обеспечивает близость каждого объекта к станции метро/паромному терминалу.