Управляемое данными тематическое исследование Оссамы Моголов

Введение

С тех пор, как в 2014 году был принят Сиднейский закон о локаутах, интересным предметом изучения стала ночная экономика самого известного города Австралии. Из-за локаута в 1:30 и последней выпивки в 3:00 в барах, пабах и клубах в развлекательных районах Сиднея (таких как Кингс-Кросс) для сдерживания насилия, вызванного алкоголем и наркотиками, эти предприятия пострадали от снижения торговли и спроса.

Учитывая, что пешеходное движение в Кингс-Кросс упало на 40%, упав с субботнего пика 5590 в час между 1:00 и 2:00 в 2010 году до субботнего пика в 3888 между 00:00 и 01:00 в 2015 году, другие типы ночных объектов, такие как как закусочные, имеют большее давление, чтобы поднять падение.

Отчет Deloitte Access Economics под названием ImagineSydney: Play исследует, что ночная экономика города неэффективна и теряет 16 миллиардов долларов, а также говорится, что ряду секторов необходимо будет расширить свои ночные услуги, начиная от ресторанов и баров. до центров искусства и культуры, развлечений и фитнес-центров.

Повышенный спрос на эти другие услуги создает возможность для увеличения доли рынка. Инвесторы, особенно заинтересованные в росте популярности международных десертов, таких как чай с шариками, могут извлечь выгоду из динамичного изменения ночных развлечений в Сиднее, оценив факторы, которые способствовали успеху ночных ресторанов/кафе.

Действительно, такие факторы, как близость парковочных мест, доступность общественного транспорта и близость к существующим ресторанам с известными торговыми марками, в настоящее время имеют решающее значение для успеха предприятий закусочных в свете законов о блокировке и снижения доступности этих объектов (например. менее частые поезда, более дорогая парковка в период блокировки и т. д.).

Затем крайне важно, чтобы инвестор мог различать закономерности в этих деталях, касающихся существующих ночных закусочных, и применять их для прогнозирования оптимальных мест при создании бизнеса, который считает его успешным.

Таким образом, бизнес-проблема определяется как определение идеального места (мест) для создания успешной ночной закусочной на основе таких факторов, как доступность частного/общественного транспорта, ранее существовавшие успешные местоположения закусочных на улицах. , а также общие функции объекта (например, Wi-Fi, места для сидения на открытом воздухе и т. д.). API-сервисы определения местоположения Foursquare будут использоваться для получения сведений о ночных заведениях, таких как координаты, рейтинги и характеристики ресторана, а также для изучения этих сведений на предмет закономерностей и классификации.

Заинтересованное лицо в этой бизнес-проблеме может быть определено как инвестор, пытающийся извлечь выгоду из ночной экономики, смещающей спрос на большее количество закусочных и открывающий новый успешный закусочный, основанный в первую очередь на простоте доступа. и расстояние от других конкурентов.

Методология

В этом разделе представлен пошаговый обзор исследовательского анализа данных, проведенного для решения бизнес-задачи прогнозирования идеальных мест для новой ночной закусочной.

Используемые данные загружаются, визуализируются и обрабатываются, чтобы подготовить их к моделированию машинного обучения, включая извлечение/выбор признаков. Кроме того, несколько моделей классификации обучаются и оцениваются в отношении оптимальных параметров для использования. Эти модели сравниваются с помощью отчета о точности с использованием различных методов оценки, и выбирается лучшая модель. Наконец, эта модель выполняется для прогнозирования наиболее идеальных мест для новой закусочной путем выбора названий улиц из кортежей тестовых данных, которые предсказывают успешный рейтинг гипотетической закусочной на этой улице.

Два API-интерфейса разработчиков Foursquare будут использоваться для получения сведений о заведениях Сиднея в категории ночных закусочных.
Первый API будет искать объекты, с параметрами запроса, определяющими запрос координат центрального делового района Сиднея (33°52′5″S 151°12′44″E) с радиусом 837 метров , а также получение сведений о месте проведения в формате JSON в качестве ответа, таких как название, координаты, особенности ресторана и т. д.
Второй API предоставит сведения о местах проведения с параметрами запроса, определяющими идентификатор места (полученный из первого API). ответ) и получение сведений о месте проведения в формате JSON в качестве ответа, таких как рейтинг, часы работы, уровень цен и т. д.

OpenData Transport for NSW (tfNSW) API будет использоваться для получения сведений о внеуличной парковке Сиднея, предоставляемой крупными поставщиками парковок для более чем 20 000 внеуличных парковочных мест. Полученные сведения о парковке будут представлены в формате JSON в качестве ответа, например, название здания, координаты, общее количество отсеков, адрес и т. д.
Учитывая, что ответ API ограничен типом содержимого сжатого файла и имеет ограничение 5 звонков в день, файл GeoJSON для простоты загружен напрямую в репозиторий GitHub, а доступ к нему осуществляется с помощью библиотеки urllib.

Точка доступа OpenData Transport for NSW (tfNSW) I будет использоваться для получения подробной информации о местах расположения общественного транспорта Сиднея, включая железнодорожные станции, паромные пристани и автобусные остановки. Кроме того, будет доступна информация о сопутствующих объектах (например, стойках для велосипедов, пригородных автостоянках). Полученные сведения о местоположении транспорта будут представлены в формате JSON в качестве ответа, например, типы транспорта, координаты, доступные средства, адрес и т. д.
Учитывая, что ответ API ограничен типом содержимого сжатого файла и имеет ограничение 5 звонков в день, CSV-файл для простоты загружен напрямую в репозиторий GitHub, а доступ к нему осуществляется с помощью библиотеки pandas.

Используемые модели машинного обучения относятся к классификационному типу. Это связано с тем, что предоставленные данные помечены, и модель можно контролировать во время обучения, чтобы определить независимые и зависимые переменные. А именно, поля с подробными сведениями о расположении заведения и сведениями о доступности частного/общественного транспорта рассматриваются как независимые переменные, определяющие рейтинг заведения (т. е. зависимая переменная).
Модели классификации, которые будут созданы и оценены, относятся к следующее:

Модель K-ближайших соседей

  • Обоснование: простая реализация, надежная в отношении пространства поиска; например, классы не обязательно должны быть линейно разделимыми, их можно обновлять с минимальными затратами по мере появления новых экземпляров с известными классами.

Модель дерева решений

  • Обоснование: устойчивость к выбросам, масштабируемость и возможность естественного моделирования нелинейных границ решений благодаря их иерархической структуре.

Модель машины опорных векторов

  • Обоснование: Может моделировать нелинейные границы решений, имея на выбор множество ядер. Достаточно устойчив к переоснащению, особенно в многомерном пространстве.

Модель логистической регрессии

  • Обоснование: выходные данные имеют хорошую вероятностную интерпретацию, а алгоритм можно упорядочить, чтобы избежать переобучения. Логистические модели можно легко обновлять новыми данными с помощью стохастического градиентного спуска.

Показатели точности, которые будут использоваться для оценки и сравнения этих моделей классификации, следующие:

  • Индекс сходства Жаккара
  • F1-счет
  • Логарифмическая потеря

Некоторые допущения при моделировании классификации:

  • Используемый размер теста составляет 20% (0,2) со случайным состоянием 4.
  • Классификатор дерева решений использует энтропию в качестве критерия для определения прироста информации и, кроме того, лучшей переменной для разделения дерева на следующие
  • Классификатор машины опорных векторов будет протестирован на четырех типах ядер: линейном, полиномиальном, радиальном и сигмовидном.
  • Классификатор логистической регрессии будет использовать решатель liblinear, чтобы обеспечить регуляризацию L1 и L2 и разрешить плотные и разреженные входные данные.

Загружаемые данные предварительно обрабатываются для подготовки к приему модели классификации. Это будет включать выравнивание, такое как однократное кодирование, чтобы использовать двоичные переменные вместо категориальных для моделей и нормализацию значений для повышения целостности данных. Другие функции, такие как count() и numpy.linalg.norm, также будут применяться к различным полям для проведения расчетов близости.

Чтобы добавить последние штрихи к ценности особенностей объекта, данные о местоположении частного/общественного транспорта будут проанализированы, чтобы создать шкалу доступности от 1 до 10 для каждого места ниже, где 1 очень неудобен для доступности. и 10 очень удобно. Предполагается, что пройти 100 метров до места проведения мероприятия очень удобно.

Рейтинг места проведения — это переменная ответа, поэтому записи тестов будут классифицироваться в его категориальной форме. Рейтинги непрерывного типа сгруппированы в следующие категориальные ячейки:

В конечном итоге окончательный набор данных, используемый для обучения моделей, будет содержать некоторые сведения о месте проведения, такие как их координаты и рейтинги, а также близость к частным парковкам и остановкам общественного транспорта. Для классификации будут использоваться следующие числовые переменные:

  • Координаты широты места проведения
  • Координата долготы места проведения
  • Относительная оценка доступности (0–1)
  • Рейтинг места

Результаты

Окончательный набор данных, объединяющий сведения о местах проведения с их рейтингами и оценкой относительной доступности, показан ниже:

Среднее евклидово расстояние, нормализованное в пределах от 1 до 10, между транспортными пунктами и объектами показано ниже:

Мы видим, что для Steerson’s Steakhouse (расположенного на Лайм-стрит, 17, Сидней) большинство парковочных мест для частного транспорта находится на расстоянии 0,875–1,0 км от места проведения мероприятия. Это примерно 10–12 минут ходьбы, что все еще немало для самого густонаселенного пешеходного района Сиднея. Однако гистограмма смещена вправо, поэтому до большинства парковочных мест можно дойти пешком менее чем за 12 минут.

Как обсуждалось ранее, общее количество отсеков способствует удобству парковки и в некоторой степени компенсирует ее удаленность от места проведения мероприятия. Нормализованные значения количества отсеков используются в качестве обратных множителей расстояний до каждого парковочного места, а масштабированные расстояния классифицируются по шкале доступности.

Мы можем видеть, что большинство частных парковочных мест, принимая во внимание их общее количество доступных отсеков, довольно удобны (> 6) для того, чтобы дойти до ночной забегаловки. Следует отметить, что заметное количество пространств (10) находится на расстоянии более 2,25 км, по сравнению с пиком в 14 пространств на расстоянии от 300 до 500 метров. Этот всплеск может быть связан с тем, что верхняя граница в 2,25 км была неверно принята.

Коэффициент корреляции Пирсона между оценкой доступности и рейтингом заведения составляет -0,304.

Результаты прогнозирования (т. е. прогнозируемые рейтинги мест проведения) с использованием тестового подмножества данных из окончательного набора данных для каждой модели классификатора следующие:

Показатели точности для каждой модели классификатора следующие:

Таким образом, моделью классификатора с наивысшей точностью является модель SVM. Адреса протестированных мест проведения мероприятий с предполагаемой оценкой Отлично или Отлично:

  • Лайм-стрит, Сидней
  • Кинг Стрит Уорф, Сидней
  • Променад, Сидней

Обсуждение

Анализ данных и моделирование с помощью машинного обучения позволили определить лучшие места для открытия новой ночной закусочной в центральном деловом районе Сиднея и с высокой вероятностью получить рейтинг выше 6,5/10 на FourSquare.

Действительно, предполагалось, что недавно открытая ночная закусочная на определенной улице будет иметь тот же уровень рейтинга, что и уже существующий ресторан на этой улице. Это связано с тем, что предполагалось, что частная парковка или доступность общественного транспорта являются основным фактором, определяющим успех ресторана. Таким образом, если в центральном деловом районе Сиднея будет открыта ночная закусочная, наиболее подходящими для открытия магазина будут следующие улицы:

  • Лайм-стрит, Сидней
  • Кинг Стрит Уорф, Сидней
  • Променад, Сидней

Эти улицы имеют относительную доступность в диапазоне от 40 до 75%, что немного подразумевает, что доступность улицы может в значительной степени способствовать успеху закусочной. Однако интересно, что коэффициент корреляции Пирсона между рейтингом заведения и его транспортной доступностью составляет -0,304. Во всяком случае, существует отрицательная корреляция между двумя переменными.
В этом исследовании могли быть упущены другие факторы, которые имеют большее влияние на успех закусочной. Они могут включать близость к популярным коммерческим зданиям, таким как Darling Park, и другим достопримечательностям, таким как торговые центры. Другим влиянием могут быть сезонные тенденции. Зимнее время, как правило, предпочитает ночные закусочные с горячей едой, а не кафе-мороженое. Это приведет к подавлению многих закусочных в разные месяцы, а также к снижению их популярности и количества оценок.
В будущих исследованиях вместо этого можно будет изучить оценку каждой закусочной на основе этих характеристик. Конечно, некоторые функции, такие как сезонные тенденции, усложняют анализ, поскольку требуют изучения данных, чувствительных ко времени, а не «моментального снимка» или сведений о месте проведения и рейтингов, как это сделано для этого исследования.

Исследование данных

Во время предварительной обработки данных стало очевидно, что очень мало записей об объектах доступны для изучения, учитывая наши ограничения. Всего было выявлено 15 ночных закусочных в центральном деловом районе Сиднея. Это небольшое количество выборок, которые будут использоваться для обучения моделей классификации, что создает проблемы достоверности оценок точности и прогнозов рейтинга.
Причин низкой доступности выборок данных может быть несколько. Некоторые включают:

  • База данных Foursquare чаще всего используется в США, и, следовательно, она, естественно, предлагает больше информации о местах проведения соревнований в этой стране. Многие рестораны в Австралии могут просто еще не попасть в базу данных либо потому, что владельцы/гости еще не видят ценности инструмента, либо само программное обеспечение не адаптировано к гастрономическому рынку Австралии.
  • Ограничение радиуса, указанное для API Foursquare, было слишком строгим. Этот предел был определен из географического определения центрального делового района Сиднея как района, однако он может быть слишком мал, чтобы проиллюстрировать размер рынка закусочных в городе Сидней.
  • Условия, определяющие закусочную как «ночную», могут быть слишком строгими. Если закусочная остается открытой после 9 вечера, это считается поздней ночью. Время работы многих ресторанов может не обновляться с учетом сезонных изменений (некоторые рестораны остаются открытыми позже во время рождественских праздников). Более того, многие люди скорее считают все, что открыто после 8 вечера, поздней ночью. В конце концов, ночной шоппинг по четвергам в Сиднее определяется как любой магазин, открытый до 21:00.
  • Стандартный доступ к API Foursquare ограничивал количество результатов до 50.

Ценность данных ответов Foursquare была существенной, предлагая множество подробностей о каждом заведении, помимо рейтингов и времени работы, таких как типы функций и диапазон цен на товары. Многие детали можно было бы использовать как независимые переменные для понимания успеха ресторана. Однако для простоты гипотеза была ориентирована на доступность личного и общественного транспорта. Кроме того, типы доступных функций (например, бронирование) были упрощены до логической переменной и связаны с логическим значением доступности Wi-Fi.

Данные о частных парковках также были очень полезны для понимания не только того, где находится каждое парковочное место, но и того, насколько оно доступно (например, общее количество отсеков). Затем этот фактор использовался для взвешивания каждого парковочного места и определения итоговой оценки доступности. Точно так же данные об общественном транспорте предлагали различные виды транспорта, доступные в каждом месте. Например, на станции Circular Quay есть автобусы, поезда и паромы.
Эти режимы могут быть предварительно закодированы и дополнительно изучены и использованы в качестве взвешивания в различных районах Сиднея (например, автобусы более популярны на определенной улице, чем поезда).
Кроме того, количество режимов, доступных в каждом месте, можно просто применить к каждому местоположению, чтобы добавить к нему вес. Для простоты в данном исследовании влияние этих мод не учитывалось.

Исследование модели

Для этого исследования были обучены 4 модели классификации, которые сравнивались с использованием различных показателей точности. Следует отметить, что небольшое количество доступных выборок (15) серьезно повлияло на точность всех моделей. Это снизит их надежность и повысит их чувствительность к новым данным, уменьшив достоверность предсказанных рейтингов конкретного места, где находится закусочная. Учитывая соотношение поезд-тест 0,7:0,3, у моделей есть только 10 площадок для тренировок и 5 для тестирования. Кроме того, почти все места, представленные в наборе данных, имели числовой рейтинг выше 5, что доказывает, что чрезвычайно сложно создать категориальные бины, которые были бы расположены на одинаковом расстоянии друг от друга, но могли бы иллюстрировать закономерности. Действительно, все 5 заведений имели прогнозируемый рейтинг *Отлично*, и только модель Дерева решений прогнозировала рейтинг *Отлично* для закусочной, которая на самом деле имела рейтинг *Отлично*.

Что касается точности индекса простоты Жаккара, измеряющего сходство между прогнозируемыми рейтингами и фактическими рейтингами, все модели имели оценку 0,6 или 0,8, а KNN и SVM - 0,8. Оценка F1, отражающая баланс между точностью и полнотой предсказанных значений, также составляла либо 0,6, либо 0,89; очень подозрительно высокие баллы, учитывая небольшое количество образцов. Опять же, KNN и SVM получили самые высокие баллы по 0,89 каждый. Логарифмическая потеря, отражающая вероятность модели, предсказывающей правильное значение, составляла либо 0,87, либо относительно высокое значение 7,46. KNN имел значение 7,46, тогда как SVM имел значение 0,87.

Учитывая, что модель SVM имела самые высокие оценки Жаккара и F1, а также самые низкие логарифмические потери, она оценивается как наиболее подходящая модель классификатора. Эта модель предсказывала, что наличие закусочной на 3 улицах, перечисленных выше, будет означать, что у этой закусочной, скорее всего, будет рейтинг выше 6,5.

При создании модели учитывались многие допущения, такие как инициализация значений K для модели KNN, типы решателей, используемые для логистической регрессии, и типы ядра, используемые для модели SVM. Этот выбор повлияет на вывод прогнозов и повысит точность модели. Несмотря на это, ограниченное количество доступных выборок оказало бы гораздо более негативное влияние на точность прогноза.

Другой подход к выбору моделей для этого исследования может заключаться в том, чтобы изменить бизнес-задачу на поиск сходства между успешными ресторанами, а не классифицировать, какие из них имеют более высокий рейтинг. Как обсуждалось выше, рейтинг заведения, полученный из базы данных Foursquare, может не полностью отражать картину успешного ночного заведения.
Изменение бизнес-задачи для поиска сходства может изменить тип используемых моделей на кластеризацию, а не на классификацию. Затем каждую кластерную группу можно было бы дополнительно изучить, чтобы понять, что объединяет отдельные закусочные. Также можно рассчитать среднее значение оценок в каждой группе, чтобы определить, какой кластер является «успешной группой».
Ответ на бизнес-задачу можно получить, проанализировав расположение ресторанов в этой группе.

Вывод

После введения в действие Сиднейских законов о блокировке ночная экономика в Австралии начала смещаться в сторону популяризации ночных закусочных. Понимание факторов, влияющих на эту экономику, и, в частности, факторов, влияющих на успех ночных закусочных, стало жизненно важным. Это исследование определило с помощью классификационного моделирования, что в центральном деловом районе Сиднея существуют 3 улицы, которые дадут более высокие рейтинги закусочных. Действительно, модель машины опорных векторов (SVM) определила, что эти улицы будут иметь рейтинг выше 6,5/10, а именно:

  • Лайм-стрит, Сидней
  • Кинг Стрит Уорф, Сидней
  • Променад, Сидней

Следует отметить, что для этого исследования было доступно удивительно небольшое количество образцов (15) на площадках, которые находятся как в центральном деловом районе Сиднея, так и открыты до поздней ночи. Это еще больше повлияло на точность и достоверность обученных моделей классификаторов и, следовательно, на улицы, выбранные в качестве лучших мест для создания успешной ночной закусочной. Будущие исследования могут позволить изучить другие базы данных закусочных помимо Foursquare, а также большую географическую зону и более широкий диапазон времени работы.