Для многих из нас первое, что мы делаем по утрам, — это выпиваем кофе или думаем, где мы можем получить первый кофе в этот день. Этот факт делает кофе ценным продуктом, который занимает 107-е место среди самых продаваемых товаров по данным OEC (Обсерватория экономической сложности).

По данным Европейской кофейной конфедерации, во Франции люди съели около 366 тысяч тонн зеленого кофе, что составляет 13% потребления зеленого кофе в Европейском Союзе в 2015 году. Исходя из этих данных, каждый человек потреблял 5,1 кг в течение того же года.

Данные показывают, что потребление кофе важно и продолжает расти для французского рынка. Напрашивается вывод: сейчас неплохое время для открытия кофейни и участия в этом большом бизнесе. Чтобы сделать этот бизнес успешным, очень важно выбрать правильное место для кофейни, где существует важная клиентская база.

Цель исследования - предоставить информационную карту, которая может помочь выбрать, в каком районе лучше открыть кофейню в Париже.

Критерии, используемые для выбора участка, следующие:
 — Средний доход домохозяйства: ориентироваться на домохозяйства с высоким доходом.
 — Плотность населения: в густонаселенных районах будет больше потенциальных клиентов. офисы и промышленные объекты будут иметь больше потенциальных клиентов
- Статус занятости: предпочтение отдается районам с высоким уровнем занятости
- Конкуренты: предпочтение отдается районам с меньшим количеством конкурентов

Список критериев не является исчерпывающим. Я выбираю только вышеуказанные критерии из-за отсутствия данных. Например, можно включить движение транспортных средств по соседству.

А. Данные

Чтобы получить географические данные, я использовал веб-сайт data.gouv.fr, который предоставляет множество типов данных о Париже, и я смог найти файлы .json, содержащие координаты районов и кварталов.

Для проведения данного исследования я также использовал данные с сайта INSEE — национального института статистики и экономических исследований во Франции.

На веб-сайте INSEE я нашел информацию о среднем доходе домохозяйства, плотности населения и статусе занятости для каждого района из 20 районов, составляющих Париж. Данные представлены в табличном формате, и для создания чистых наборов данных необходимо использовать методы очистки.

INSEE также предоставляет данные о типах заведений в каждом районе. Эта информация полезна для определения того, можно ли рассматривать район как интересную базу сотрудников.

Я использовал API Foursquare, чтобы получить наиболее распространенные места в каждом районе Парижа. Эти данные позволяют ориентироваться на конкурентов и не находиться рядом с другими кофейнями.

Б. Методология

1. Получение данных

В этом исследовании у нас есть три ресурса данных, которые позволяют создавать все наборы данных и проводить необходимые анализы.

  • Географические данные

С открытой платформы общедоступных данных во Франции я загрузил два файла json для создания фреймов данных парижских районов и районов.

На рисунке ниже показаны 5 районов Парижа и их характеристики: почтовый индекс, район, поверхность района, район, широта, долгота.

Париж состоит из 20 районов, каждый из которых разделен на 4 района. Всего у нас 80 микрорайонов. На рисунке ниже показана карта районов и районов Парижа.

  • Данные о месте проведения

API Foursquare используется для получения площадок в каждом районе. На рисунке ниже показан соответствующий кадр данных.

  • Демографические данные

Теперь, когда мы построили кадры данных о районе и месте проведения, мы сосредоточимся на получении демографических данных с веб-сайта INSEE:
- Средний доход домохозяйства
- Плотность населения
- База сотрудников
- Занятость статус

Веб-сайт INSEE предоставляет данные по районам. Поэтому я буду очищать данные для каждого района, а затем назначать значения районов районам, его составляющим. Процесс парсинга был выполнен с использованием библиотеки BeautifulSouppython.
На рисунке ниже показан кадр демографических данных.

Столбец Предпочитаемые сотрудники раздела содержит количество рабочих мест в промышленности, административном секторе и секторе услуг в каждом районе. Чем больше сотрудников в этих секторах, тем больше мы можем считать, что район является базой для сотрудников.

2. Исследование и обработка данных

  • Парижские кофейни и конкурентоспособность

Поскольку нас интересуют только кофейни, нам нужно извлечь из парижских заведений те магазины, которые основаны на категории. Кофейни относятся к категориям Кафе или Кофейня.

Количество кофеен — важная информация, позволяющая проверить, есть ли в районе много конкурентов. На основе этих данных мы можем установить уровень конкурентоспособности в каждом районе. Для этого давайте посмотрим на распределение кофеен, показанное на рисунке ниже.

Основываясь на приведенной выше гистограмме количества кофеен в районе, мы можем классифицировать районы по 3 категориям.
- низкая конкурентоспособность: количество кофеен менее 2
- средняя конкурентоспособность: количество кофеен от 2 до 4
- высокая конкурентоспособность: количество кофеен больше 4

Теперь в кадре данных соседства появился новый столбец для обозначения уровня конкурентоспособности, как показано на рисунке ниже.

  • Предпочтительная плотность сотрудников в секторе

Если мы рассмотрим все демографические данные района, за исключением Preferred Sector Employees, мы можем применить их к районам, образующим район, поскольку они нормализованы по отношению к площади или населению. Я рассчитал Предпочтительную плотность сотрудников в секторе, чтобы иметь возможность использовать его для районов.

Плотность сотрудников предпочтительного сектора = количество сотрудников предпочтительного сектора/район

Окончательный кадр данных окрестности будет выглядеть так, как показано на рисунке ниже.

3. Кластер парижских кварталов

Теперь, когда у меня есть окончательный набор данных, я могу приступить к кластеризации парижских районов, чтобы порекомендовать начинающему бизнесу район, в котором лучше открыть собственную кофейню.

Перед запуском алгоритма кластеризации я преобразовал столбец Competitiveness с помощью функции one hot encoding, чтобы получить числовые данные. Затем я использовал StandardScaler, чтобы нормализовать все функции.

Я использовал алгоритм k-средних для сегментации районов Парижа. Чтобы выбрать оптимальное значение k, я применил метод локтя, как показано на рисунке ниже.

На графике видно, что среднее расстояние падает при значении k 5, что придает графику форму локтя. Следовательно, мы можем сделать вывод, что наше оптимальное значение: k = 5.

С. Результаты

В дальнейшем подразумеваются признаки каждого кластера, которые используются для определения различных кластеров.

Из приведенных выше результатов мы можем легко выделить три типа кластеров на основе признака Конкурентоспособность (высокий, низкий и средний). Затем, учитывая уровень безработицы и плотность, мы классифицируем другие кластеры.

Поэтому я выбираю следующие имена для кластеров:
- Кластер 0: Низкая конкурентоспособность, низкая плотность населения и предпочтительная плотность сектора
- Кластер 1: Низкая конкурентоспособность, высокий уровень безработицы
- Кластер 2: Высокая конкурентоспособность
- Кластер 3: Низкая конкурентоспособность, высокая плотность населения и предпочтительная плотность сектора
- Кластер 4: средняя конкурентоспособность

На карте ниже показана кластеризация Парижа.

Охарактеризовав каждый кластер, мы можем легко заметить, что Caster 3 является наиболее интересным, поскольку он сочетает в себе множество преимуществ, таких как низкая конкурентоспособность, высокая плотность населения и предпочтительная плотность сектора.

На рисунке ниже показаны различные районы, составляющие кластер 3.

Мы можем заметить из кластера 3, что районы Рошшуар, Шоссе-д'Антен и Фобур-Монмартриметь предпочтительные демографические характеристики. Это лучшие кандидаты, которых можно порекомендовать тому, кто хочет открыть собственную кофейню.

На рисунке ниже показаны три выбранных района.

Д. Обсуждение

Потребление кофе по-прежнему важно и растет, как показали многие данные. Таким образом, открытие кофейни всегда является хорошей идеей для начала бизнеса, особенно в таком большом городе, как Париж.

Однако выбрать место для кофейни не так-то просто. Мы должны учитывать множество факторов, чтобы сделать этот бизнес успешным и прибыльным. Эта задача требует компиляции множества типов наборов данных, которые учитывают демографию района и конкуренцию.

Чтобы решить эту проблему, я применил подход к сегментации, целью которого является кластеризация парижских районов на основе их демографических данных и данных о месте проведения. Я использовал алгоритм Kmeans и метод локтя для определения количества кластеров и их центроидов.

Анализ дал 5 кластеров, которые упростили выбор районов-кандидатов, чтобы порекомендовать их начинающим предпринимателям. Районами-кандидатами являются Рошшуар, Шоссе-д’Антен и Фобур-Монмартр.

Выполненный анализ учитывает множество параметров для определения наилучшего местоположения. Но можно включить и другие функции, чтобы улучшить результат и гарантировать успех в бизнесе. Например, можно добавить данные о трафике и близости к другому бизнесу.

Я использовал географические библиотеки для отображения границ и кластеров районов, что упрощает понимание результатов.

Вывод

Фактическое исследование предоставляет расширяемое решение, которое помогает начинающему бизнесу выбрать свой бизнес-сайт. Он сочетает в себе множество функций, чтобы гарантировать успех.

После выполнения этого анализа бизнес-статер может двигаться дальше и сосредоточиться на микрокритериях, которые следует учитывать в процессе выбора бизнес-сайта.

Этот анализ можно применять не только для выбора площадки для кофейни, но и для выбора любой производственной площадки.

использованная литература

Репозиторий

Вот ссылка на блокнот, который использовался для проведения этого исследования: Paris_Coffee_Shop_Site_Selection.ipynb.