Это мой завершающий проект для получения профессионального сертификата IBM Data Science на Coursera. В этом проекте я взял список названий районов Ханоя из Википедии, используя Beautifulsoup, и их соответствующие координаты, используя пакет Geocode. Затем я получил список мест, связанных с искусством, из API Foursquare, проанализировал данные и использовал алгоритм кластеризации k-средних, чтобы сгруппировать все районы в пять разных групп на основе сходства категорий мест. Наконец, я визуализировал свои результаты на карте, используя библиотеки Folium.

Введение

Предыстория и бизнес-проблема

Ханой, столица Вьетнама, является динамичным и мультикультурным городом. Разбросанный по 30 районам, есть множество вариантов развлечений как для местных жителей, так и для туристов. Любители культуры и искусства могут провести целый день в музеях, чтобы узнать об истории и традициях Вьетнама, или посетить различные художественные галереи, чтобы приобрести для себя подлинные произведения искусства от талантливых местных художников. Ночью меломаны могут послушать гламурный звук саксофона в уютном джаз-клубе или посмотреть новейшие блокбастеры в современных кинотеатрах. Каждый год миллионы туристов со всего мира, а также большое количество людей из разных провинций приезжают в Ханой в поисках возможностей и опыта. Это рай для туристов и любителей искусства, где можно познакомиться с одной из величайших самобытных культур Азии, а также перспективный рынок для предпринимателей, открывающих свой бизнес, особенно связанных с искусством. Однако может быть недостаточно информации о том, какое место предлагает какие виды искусства. Поэтому этот проект был создан для решения этой проблемы.

Другими словами, цель этого проекта — порекомендовать лучший район Ханоя для открытия художественной галереи, исходя из интереса людей к этому месту. Статистические методы и алгоритм машинного обучения используются для анализа и кластеризации районов Ханоя на основе их схожести по количеству художественных площадок. Оттуда я могу проверить, в каком кластере больше всего арт-площадок и галерей, а это значит, что в районе есть потенциальные покупатели, которые обычно ходят за покупками, и это было бы отличным местом для открытия арт-галереи.

Кому будет интересно?

Владельцы бизнеса, художники или любители искусства могут найти результаты этого проекта полезными в процессе принятия решений. Владельцы бизнеса могут видеть районы, в которых много арт-площадок, и принимать дальнейшие решения. Туристы, проявляющие большой интерес к вьетнамским произведениям искусства, могут ознакомиться с результатами проекта, чтобы выбрать пункт назначения для своей следующей поездки в Ханой.

Данные

Описать данные

Для решения задачи проекта мне нужно собрать эти данные:

- Список названий районов в Ханое (взято из Википедии с помощью Beautiful Soup)

- Широта и долгота этих окрестностей (пакет Geocoder)

- Данные о местах, связанные с художественным разделом в каждом районе, чтобы помочь найти место с большим интересом к художественным галереям (из API Foursquare)

Как это используется для решения проблемы?

По координатам я нашел 50 мест, связанных с искусством, в пределах 10 километров от каждого района, а затем использовал метод кластеризации k-средних, чтобы сгруппировать районы в 5 категорий, которые представляют сходство количества мест вьетнамского искусства в этом районе.

Методология

Исследовательский анализ данных

Данные из разных источников сначала объединяются в единый фрейм данных. Затем я проверяю уникальные значения категорий мест проведения и обнаружил, что их 18: Художественная галерея, Музей, Кинотеатр, Мультиплекс, Джаз-клуб, Музыкальное заведение, Оперный театр, Художественный музей, Исторический музей, Рок-клуб, Театр. , Концертный зал, Мемориал, Место проведения исполнительских искусств, Общественное искусство, Танцевальная студия, Зоопарк и Амфитеатр.

Среди районов в Гиа Лам, Ме Линь, Фу Сюйен и Фук Тхо меньше всего арт-площадок. В радиусе 10 км от районного центра для каждого района найдено только одно заведение. Другие районы вблизи центра города собирают больше площадок.

Среди категорий площадок наибольшей популярностью пользуется «Кинотеатр» (199 площадок), за ним следует «Исторический музей» (107 площадок). «Театр» и «Художественная галерея» являются третьим и четвертым по популярности местами в Ханое, с 62 и 46 местами соответственно. Лишь несколько мест относятся к другим категориям.

Все категории были сразу закодированы в другой фрейм данных для дальнейшего анализа и моделирования. Это предотвратило смещение подсчета каждой категории по отношению к другим, поскольку оно могло быть рассчитано как вес в моделях машинного обучения.

После этого данные были сгруппированы по районам и было рассчитано среднее значение всех подсчетов для каждой категории в районе. Результат следующий.

Модель машинного обучения

Я отфильтровал 15 самых популярных мест в каждом районе и присвоил им значение k кластера, равное 5.

Результаты

Результаты сгруппированных районов визуализируются на карте с помощью библиотеки Folium. Большинство районов в центре города находятся в одном кластере (кластер 1). Они предлагают множество кинотеатров и музеев истории для исследователей культуры. Тем не менее, кластер 3 (зеленый цвет), где «Художественная галерея» является самой популярной категорией, является лучшей группой районов для открытия художественной галереи.

Обсуждение

Этот проект фокусируется только на кластеризации районов на основе их художественных площадок. Однако на самом деле многие другие факторы также могут повлиять на решение, в каком районе лучше всего открыть художественную галерею. В масштабах и сроках этого проекта я принимаю результат и надеюсь на дальнейшие исследования для улучшения решения.

Заключение

Этот проект направлен на объединение 30 районов Ханоя в 5 областей на основе районов, распространенных в арт-центрах. Извлекая информацию о районах и координаты из Интернета и используя анализ данных и модели машинного обучения, проект обнаруживает, что районы в центре города более ориентированы на искусство и имеют больше художественных галерей, тогда как районы, расположенные рядом с сельской местностью, имеют меньше вариантов. Хотя результаты основаны только на сходстве художественных площадок, я надеюсь, что это принесет пользу людям, чтобы получить первый обзор рынка искусства и развлечений во Вьетнаме.