Исследовательский вопрос

Привлечет ли Амстердам в будущем больше туристов, чем Нью-Йорк?

Введение

Airbnb, Inc. — это онлайн-платформа для организации или предложения жилья, проживания в семье или туризма. Компания выступает в качестве брокера, получая комиссионные с каждого бронирования, не владея ни одним из списков недвижимости.

Наш проект в основном фокусируется на туризме в двух городах и прогнозирует, как он изменится в будущем. В первую очередь, исследуя количество бронирований в разных районах городов и их изменение с течением времени, наша главная цель состоит в том, чтобы предсказать, увеличится ли туризм в Амстердаме по сравнению с Нью-Йорком в ближайшие годы.

Поскольку в Амстердаме и Нью-Йорке в течение года проводятся многочисленные фестивали и наблюдается большой поток туристов, данные этих двух городов сопоставимы, что позволяет нам сделать обоснованный прогноз относительно будущего туризма в этих двух городах.

У нас было три разных набора данных: «Объявления», «Календарь» и «Отзывы», предоставляющие подробную документацию о бронированиях Airbnb, информации о хозяевах, районах, типах номеров, дате бронирования, ценах и отзывах. Затем различные атрибуты использовались для определения их корреляции с частотой бронирований.

Количество бронирований также коррелировало с сезонами, что давало ключевую информацию для определения вероятности бронирования номера по более высокой цене, меньшему количеству отзывов или более низким оценкам и т. д.

Так как данные по разным сезонам и фестивалям не были предоставлены, они были созданы вручную, взяв информацию из интернета. Набор данных «Сезоны» в основном разделил месяцы на 4 группы — каждая для определенного сезона.

Предположение. Мы исходим из того, что большее количество бронирований будет означать большее количество туристов в конкретном городе.

Очистка данных

Первоначально наборы данных содержали около 350 000 строк и 105 различных столбцов, однако данные были отфильтрованы, и для нашего анализа осталось 10 000 строк и 11 столбцов.

Строки или столбцы с повторяющимися данными или отсутствующими записями были удалены. Учитывая, что данные дискретны, мы не могли заменить отсутствующие значения средним/медианным значением этого конкретного атрибута, поэтому удаление всей строки было единственным приемлемым вариантом.

Были удалены выбросы, проверена согласованность языка и значений, изменены типы данных столбцов, чтобы их можно было использовать в расчетах позже, а степень числовых значений была сделана одинаковой для каждого атрибута.

Исследовательский анализ данных

Для ответа на следующие вопросы (для обоих городов) были построены ящичные диаграммы для выбросов, среднего/медианы различных атрибутов и соответствующих гистограмм.

  1. Разница в средней арендной плате за жилье по районам

2. Средние рейтинги объявлений по районам

3. Средние рейтинги объявлений по проверке хоста

4. Количество бронирований на район

5. Количество бронирований с подтверждением хозяина

6. Количество бронирований на рейтинг

7. Количество бронирований в месяц

8. Количество бронирований за сезон

9. Количество бронирований за 2010–2018 гг.

10. Средние рейтинги по районам

Средняя арендная плата за недвижимость в районе

Результаты показали, что средняя цена листинга была самой высокой в ​​Манхэттене — Нью-Йорке и Сентрум-Вест — Амстердаме. Однако в обоих районах она составляла около 200 долларов, хотя средний индекс стоимости жизни в Амстердаме на 20,96% ниже, чем в Нью-Йорке (Numbeo).

Нью-Йорк:

Амстердам:

Средний рейтинг объявлений в районе

Средние рейтинги списков по районам следовали довольно постепенной тенденции в обоих городах с небольшими различиями между разными районами. Однако тенденция в Амстердаме отличалась немного больше, чем в Нью-Йорке.

Нью-Йорк:

Амстердам:

Количество бронирований с подтверждением хозяина

Проверка хоста почти не играла роли в рейтингах или бронировании объявлений в Нью-Йорке или Амстердаме, однако показала, что непроверенные хосты имели более высокий рейтинг, чем проверенные в обоих городах.

Нью-Йорк:

Амстердам:

Количество бронирований на район

Количество бронирований было самым высоким на Манхэттене ~ 16000, что значительно больше, чем в других районах, где было бронирований ‹ 1000. Однако в Амстердаме количество бронирований было максимальным в Де-Бааршес — Уд — Запад ~ 3500 — хотя и значительно меньше этого Манхэттена.

Нью-Йорк:

Амстердам:

Количество бронирований по рейтингу

Как правило, количество бронирований увеличивается с ростом рейтинга в обоих городах, однако эта тенденция не является идеально линейной.

Нью-Йорк:

Амстердам:

Количество бронирований в месяц

Нью-Йорк:

Амстердам:

Количество бронирований за сезон

Нью-Йорк:

Амстердам:

Темпы роста бронирований

Количество бронирований в год в Нью-Йорке и Амстердаме увеличилось с 2010 по 2018 год, при этом рост бронирований в Нью-Йорке был больше, чем в Амстердаме. Количество бронирований было выше в Нью-Йорке повсюду.

Процентное увеличение количества бронирований в год со временем уменьшилось для обоих городов. Однако рост с 2010 по 2011 год в Амстердаме был резким. Снижение темпов роста в Амстердаме выше, чем в Нью-Йорке.

Машинное обучение

Мы использовали линейную регрессию с одной переменной в окончательном фрейме данных, который включал годовой рост бронирований для двух городов, чтобы предсказать рост туризма в будущем. Полученный график показал снижение темпов роста для обоих городов, при этом снижение в Нью-Йорке было постепенным по сравнению с Амстердамом. В 2016 году оба города имели одинаковые темпы роста.

Окончательный анализ

Поскольку темпы роста туризма в Амстердаме снижаются более резко, чем в Нью-Йорке, наша модель предсказывает, что в будущем туризм в Нью-Йорке останется выше, чем в Амстердаме.