Инвестирование в New Eastery в Калифорнии: подход, основанный на данных

Инвестирование в новые закусочные в Калифорнии: подход, основанный на данных

Использование алгоритма машинного обучения для новых инвестиций

"Трудно делать прогнозы, особенно в отношении будущего".

~Нильс Бор

Все лучше интерпретируется через данные. А принятие решений на основе данных имеет решающее значение для успеха в любой отрасли.

И так было с незапамятных времен. Разница сейчас в том, что мы в лучшую сторону разработали здоровый взгляд на данные, и у нас есть гораздо больше данных, доступных нам, чем в прошлые разы. И у нас есть в нашем распоряжении вычислительные мощности, которые ранее не представлялись.

В этой ситуации вычислительная мощность и данные должны использоваться для принятия более эффективных решений для решения бизнес-задач.

В своем проекте я решил дать рекомендации по открытию новых закусочных в Калифорнийском городе. В этом проекте я предоставил конкретный список рекомендаций для инвестиций. Были предложены типы закусочных (например, японский ресторан, магазин десертов и т. д.) и соответствующие округа.

В этом посте я расскажу о полном процессе проекта Data Science.

Источники данных

Для решения этой проблемы были использованы данные из четырех источников:

Данные о местоположении под названием Округи Калифорнии предоставлены на Портале открытых данных Калифорнии, предоставленном правительством Калифорнии для данных о географическом местоположении.
API Foursquare для получения информации об установленных ресторанах и другой соответствующей подробной информации о них.
Данные о населении по округам с сайта государственной переписи населения США.
Данные о реальном ВВП по округам предоставлены Бюро экономического анализа Министерства торговли США.

Исследовательский анализ данных

После очистки данных (что, безусловно, составляет более 90 % работы Data Scientist), из данных была получена ценная информация.

Также было обнаружено, что ВВП округов сильно коррелирует с численностью населения округов. Таким образом, округа с высоким ВВП и высокой численностью населения становятся привлекательными для инвестиций.

С помощью информации, предоставленной API Foursquare, для каждого округа был получен список из десяти наиболее распространенных мест. Это будет учтено при принятии решений.

Применение модели машинного обучения

Выбор алгоритма

Проблема бизнеса состоит в том, чтобы искать типы закусочных и места для инвестиций. Данные не помечены. Это делает решаемую задачу классическим применением обучения без учителя.

Цель не в том, чтобы искать ценность или класс. Цель не в том, чтобы предложить кому-то только одну рекомендацию для инвестиций. Цель состоит в том, чтобы предложить заинтересованным сторонам список возможных площадок.

И это может быть достигнуто путем кластеризации округов на основе ВВП и населения. И KMeans Clustering — лучший алгоритм статистического обучения для достижения этой цели.

Использовалась реализация библиотеки Scikit-learn для алгоритма кластеризации KMeans.

Выбор k

Для выбора наилучшего k для кластеризации использовался метод локтя.

Как видно из графика, наилучшее k равно 4. Следовательно, был применен алгоритм кластеризации с k = 4. Таким образом, были сформированы 4 кластера уездов на основе численности населения и ВВП уездов.

Результаты

Было сформировано 4 кластера, содержащих округа. При проверке было обнаружено, что округ Лос-Анджелес образует один кластер (кластер-2) с самим собой из-за его сравнительно ужасающе высокого ВВП и населения. Округа в другом кластере имели высокий ВВП и высокую численность населения, но не близко к округу Лос-Анджелес. Ориндж, Санта-Клара и Сан-Диего — три округа в этом кластере (кластер-3). Затем идут округа с низким ВВП и низкой численностью населения, такие как Плумас, Невада, Сьерра и т. д. в одном кластере (кластер-1), и со средним ВВП и населением, такие как Сакраменто, Риверсайд и т. д. в другом кластере (кластер -4).

В кластерах 2, 3 у нас есть округа с высокой численностью населения и высоким ВВП. В этих округах будет выгодно инвестировать в любую забегаловку, в то время как целесообразно инвестировать в забегаловку, которая не входит в топ-3 заведений.

В кластере 4 население и ВВП округов выше, чем у округов в кластере 1, но ниже, чем у округов во 2 или 3. Инвестиции в эти округа предпочтительнее после округа в кластере 2 и кластере 3, в указанном порядке. . Следует инвестировать в необычные закусочные, чтобы они столкнулись с меньшей конкуренцией.

В кластере 1 преобладают малонаселенные округа. Инвестиции в эти округа следует отдавать предпочтение после инвестиций в округа в кластерах 2 или 3 или кластере 4. Инвестировать в наиболее распространенные закусочные вообще не рекомендуется. Инвестиции в эти округа наименее желательны.

После предложения вариантов инвестиций были сформированы таблицы для каждого кластера с типами закусочных, а не с тремя наиболее распространенными типами.

Ссылка на полный отчет: PDF в репозитории GitHub
Блокнот с полным кодом: NB Viewer

Не стесняйтесь комментировать, оставлять отзывы или критиковать.

Свяжитесь со мной в LinkedIn или Twitter.

Этот пост в блоге связан с проектом Applied Data Science Capstone, предлагаемым IBM через Coursera.