Для многих из нас первое, что мы делаем по утрам, — это выпиваем кофе или думаем, где мы можем получить первый кофе в этот день. Этот факт делает кофе ценным продуктом, который занимает 107-е место среди самых продаваемых товаров по данным OEC (Обсерватория экономической сложности).
По данным Европейской кофейной конфедерации, во Франции люди съели около 366 тысяч тонн зеленого кофе, что составляет 13% потребления зеленого кофе в Европейском Союзе в 2015 году. Исходя из этих данных, каждый человек потреблял 5,1 кг в течение того же года.
Данные показывают, что потребление кофе важно и продолжает расти для французского рынка. Напрашивается вывод: сейчас неплохое время для открытия кофейни и участия в этом большом бизнесе. Чтобы сделать этот бизнес успешным, очень важно выбрать правильное место для кофейни, где существует важная клиентская база.
Цель исследования - предоставить информационную карту, которая может помочь выбрать, в каком районе лучше открыть кофейню в Париже.
Критерии, используемые для выбора участка, следующие:
— Средний доход домохозяйства: ориентироваться на домохозяйства с высоким доходом.
— Плотность населения: в густонаселенных районах будет больше потенциальных клиентов. офисы и промышленные объекты будут иметь больше потенциальных клиентов
- Статус занятости: предпочтение отдается районам с высоким уровнем занятости
- Конкуренты: предпочтение отдается районам с меньшим количеством конкурентов
Список критериев не является исчерпывающим. Я выбираю только вышеуказанные критерии из-за отсутствия данных. Например, можно включить движение транспортных средств по соседству.
А. Данные
Чтобы получить географические данные, я использовал веб-сайт data.gouv.fr, который предоставляет множество типов данных о Париже, и я смог найти файлы .json, содержащие координаты районов и кварталов.
Для проведения данного исследования я также использовал данные с сайта INSEE — национального института статистики и экономических исследований во Франции.
На веб-сайте INSEE я нашел информацию о среднем доходе домохозяйства, плотности населения и статусе занятости для каждого района из 20 районов, составляющих Париж. Данные представлены в табличном формате, и для создания чистых наборов данных необходимо использовать методы очистки.
INSEE также предоставляет данные о типах заведений в каждом районе. Эта информация полезна для определения того, можно ли рассматривать район как интересную базу сотрудников.
Я использовал API Foursquare, чтобы получить наиболее распространенные места в каждом районе Парижа. Эти данные позволяют ориентироваться на конкурентов и не находиться рядом с другими кофейнями.
Б. Методология
1. Получение данных
В этом исследовании у нас есть три ресурса данных, которые позволяют создавать все наборы данных и проводить необходимые анализы.
- Географические данные
С открытой платформы общедоступных данных во Франции я загрузил два файла json для создания фреймов данных парижских районов и районов.
На рисунке ниже показаны 5 районов Парижа и их характеристики: почтовый индекс, район, поверхность района, район, широта, долгота.
Париж состоит из 20 районов, каждый из которых разделен на 4 района. Всего у нас 80 микрорайонов. На рисунке ниже показана карта районов и районов Парижа.
- Данные о месте проведения
API Foursquare используется для получения площадок в каждом районе. На рисунке ниже показан соответствующий кадр данных.
- Демографические данные
Теперь, когда мы построили кадры данных о районе и месте проведения, мы сосредоточимся на получении демографических данных с веб-сайта INSEE:
- Средний доход домохозяйства
- Плотность населения
- База сотрудников
- Занятость статус
Веб-сайт INSEE предоставляет данные по районам. Поэтому я буду очищать данные для каждого района, а затем назначать значения районов районам, его составляющим. Процесс парсинга был выполнен с использованием библиотеки BeautifulSouppython.
На рисунке ниже показан кадр демографических данных.
Столбец Предпочитаемые сотрудники раздела содержит количество рабочих мест в промышленности, административном секторе и секторе услуг в каждом районе. Чем больше сотрудников в этих секторах, тем больше мы можем считать, что район является базой для сотрудников.
2. Исследование и обработка данных
- Парижские кофейни и конкурентоспособность
Поскольку нас интересуют только кофейни, нам нужно извлечь из парижских заведений те магазины, которые основаны на категории. Кофейни относятся к категориям Кафе или Кофейня.
Количество кофеен — важная информация, позволяющая проверить, есть ли в районе много конкурентов. На основе этих данных мы можем установить уровень конкурентоспособности в каждом районе. Для этого давайте посмотрим на распределение кофеен, показанное на рисунке ниже.
Основываясь на приведенной выше гистограмме количества кофеен в районе, мы можем классифицировать районы по 3 категориям.
- низкая конкурентоспособность: количество кофеен менее 2
- средняя конкурентоспособность: количество кофеен от 2 до 4
- высокая конкурентоспособность: количество кофеен больше 4
Теперь в кадре данных соседства появился новый столбец для обозначения уровня конкурентоспособности, как показано на рисунке ниже.
- Предпочтительная плотность сотрудников в секторе
Если мы рассмотрим все демографические данные района, за исключением Preferred Sector Employees, мы можем применить их к районам, образующим район, поскольку они нормализованы по отношению к площади или населению. Я рассчитал Предпочтительную плотность сотрудников в секторе, чтобы иметь возможность использовать его для районов.
Плотность сотрудников предпочтительного сектора = количество сотрудников предпочтительного сектора/район
Окончательный кадр данных окрестности будет выглядеть так, как показано на рисунке ниже.
3. Кластер парижских кварталов
Теперь, когда у меня есть окончательный набор данных, я могу приступить к кластеризации парижских районов, чтобы порекомендовать начинающему бизнесу район, в котором лучше открыть собственную кофейню.
Перед запуском алгоритма кластеризации я преобразовал столбец Competitiveness с помощью функции one hot encoding, чтобы получить числовые данные. Затем я использовал StandardScaler, чтобы нормализовать все функции.
Я использовал алгоритм k-средних для сегментации районов Парижа. Чтобы выбрать оптимальное значение k, я применил метод локтя, как показано на рисунке ниже.
На графике видно, что среднее расстояние падает при значении k 5, что придает графику форму локтя. Следовательно, мы можем сделать вывод, что наше оптимальное значение: k = 5.
С. Результаты
В дальнейшем подразумеваются признаки каждого кластера, которые используются для определения различных кластеров.
Из приведенных выше результатов мы можем легко выделить три типа кластеров на основе признака Конкурентоспособность (высокий, низкий и средний). Затем, учитывая уровень безработицы и плотность, мы классифицируем другие кластеры.
Поэтому я выбираю следующие имена для кластеров:
- Кластер 0: Низкая конкурентоспособность, низкая плотность населения и предпочтительная плотность сектора
- Кластер 1: Низкая конкурентоспособность, высокий уровень безработицы
- Кластер 2: Высокая конкурентоспособность
- Кластер 3: Низкая конкурентоспособность, высокая плотность населения и предпочтительная плотность сектора
- Кластер 4: средняя конкурентоспособность
На карте ниже показана кластеризация Парижа.
Охарактеризовав каждый кластер, мы можем легко заметить, что Caster 3 является наиболее интересным, поскольку он сочетает в себе множество преимуществ, таких как низкая конкурентоспособность, высокая плотность населения и предпочтительная плотность сектора.
На рисунке ниже показаны различные районы, составляющие кластер 3.
Мы можем заметить из кластера 3, что районы Рошшуар, Шоссе-д'Антен и Фобур-Монмартриметь предпочтительные демографические характеристики. Это лучшие кандидаты, которых можно порекомендовать тому, кто хочет открыть собственную кофейню.
На рисунке ниже показаны три выбранных района.
Д. Обсуждение
Потребление кофе по-прежнему важно и растет, как показали многие данные. Таким образом, открытие кофейни всегда является хорошей идеей для начала бизнеса, особенно в таком большом городе, как Париж.
Однако выбрать место для кофейни не так-то просто. Мы должны учитывать множество факторов, чтобы сделать этот бизнес успешным и прибыльным. Эта задача требует компиляции множества типов наборов данных, которые учитывают демографию района и конкуренцию.
Чтобы решить эту проблему, я применил подход к сегментации, целью которого является кластеризация парижских районов на основе их демографических данных и данных о месте проведения. Я использовал алгоритм Kmeans и метод локтя для определения количества кластеров и их центроидов.
Анализ дал 5 кластеров, которые упростили выбор районов-кандидатов, чтобы порекомендовать их начинающим предпринимателям. Районами-кандидатами являются Рошшуар, Шоссе-д’Антен и Фобур-Монмартр.
Выполненный анализ учитывает множество параметров для определения наилучшего местоположения. Но можно включить и другие функции, чтобы улучшить результат и гарантировать успех в бизнесе. Например, можно добавить данные о трафике и близости к другому бизнесу.
Я использовал географические библиотеки для отображения границ и кластеров районов, что упрощает понимание результатов.
Вывод
Фактическое исследование предоставляет расширяемое решение, которое помогает начинающему бизнесу выбрать свой бизнес-сайт. Он сочетает в себе множество функций, чтобы гарантировать успех.
После выполнения этого анализа бизнес-статер может двигаться дальше и сосредоточиться на микрокритериях, которые следует учитывать в процессе выбора бизнес-сайта.
Этот анализ можно применять не только для выбора площадки для кофейни, но и для выбора любой производственной площадки.
использованная литература
Репозиторий
Вот ссылка на блокнот, который использовался для проведения этого исследования: Paris_Coffee_Shop_Site_Selection.ipynb.