Компания пищевой промышленности из Рио-де-Жанейро хочет расширить свою деятельность в городе Сан-Паулу. Эта компания ориентирована на население в возрасте от 25 до 50 лет, принадлежащее к социальным классам А (уровни доходов А1 и А2) и В (уровни доходов В1 и В2). Мы поможем им определить лучшие районы для открытия филиала в Сан-Паулу. Для этого мы настроим анализ районов Сан-Паулу, чтобы:
1. Оценить доход, который магазин будет иметь в каждом из районов;
2. Классифицировать потенциал каждого из них. окрестности как Низкий, Средний или Высокий.

Хотя мы надеемся, что любой, кто читает эту статью, сможет понять ее в целом, знакомство с инструментами Data Science и Python в частности будет полезно

Исследовательский анализ данных (EDA)

Мы проводим анализ данных из города Рио-де-Жанейро. В этом анализе мы отмечаем отсутствие информации для 6 записей в поле rendaMedia таблицы. Чтобы решить эту проблему, мы могли бы просто удалить эти записи, но из-за небольшого количества пропущенных значений (всего имеется 160 точек данных из города Рио-де-Жанейро) мы решили разработать модель машинного обучения для оценки этих значений. недостающие значения. Эта модель была основана на оставшихся 154 точках данных из города Рио-де-Жанейро.

После процесса

Оцените доход, который будет иметь магазин в каждом из районов Сан-Паулу.

Мы проверили наличие выбросов в наборе данных с помощью z-показателя и, основываясь на результатах, решили не удалять данные. Следующим шагом является выбор лучших функций для решения проблемы. Среди них выбраны следующие функции: место жительстваA1, место жительстваA2, место жительстваB1, место жительстваC2, место жительстваD, domiciliosE, rendaMedia и faturamento. Эти функции имеют корреляцию, равную или превышающую 0,4, как показано ниже.

С выбранными функциями мы разработали модель машинного обучения, целью которой является оценка значений на основе заданных входных данных (эти входные данные состоят из предварительно выбранных функций). Лучшими моделями, найденными с помощью перекрестной проверки, были: регрессия случайного леса, регрессия XGBoost и регрессор Stacking CV, оптимизированный с использованием XGBoost. Исходя из этого, мы смешиваем модели, чтобы выполнить регрессию и оценить доход для каждого района, тем самым избегая переобучения. 15 лучших результатов можно увидеть ниже

Классифицируйте потенциал каждого района как Низкий, Средний или Высокий

Теперь, когда у нас есть информация о доходах для каждого района города Сан-Паулу, мы перейдем к задаче классификации потенциала каждого района как высокого, среднего или низкого. Первоначально мы будем использовать данные из города Рио-де-Жанейро в качестве основы для проведения анализа Сан-Паулу.

Первоначально мы выбрали лучшие функции для решения проблемы, а именно: população, popDe20a24, popDe25a34, popDe35a49. , popDe50a59, popMaisDe60, место жительстваA1, место жительстваA2, место жительстваB1, место жительстваB2 , domiciliosC1, rendaMedia, faturamento и потенциал. Эти функции имеют корреляцию, равную или превышающую 0,3, как показано ниже.

Следующим шагом является проверка того, что набор данных Рио-де-Жанейро несбалансирован, то есть содержит больше данных одного потенциального типа, чем других. Поэтому мы решим эту проблему, создав синтетические данные, чтобы уравнять три класса с точки зрения количества данных.

Следующим шагом является разработка модели машинного обучения с целью классификации потенциала для каждых входных данных. Используя информацию из городов Сан-Паулу, мы нашли потенциальные значения для каждого района. Ниже мы видим потенциал для 15 лучших районов с самым высоким доходом в городе Сан-Паулу.

Инсайты

На рисунке ниже мы видим, что возрастная группа от 35 до 49 лет имеет наибольшую долю населения, в то время как возрастные группы от 25 до 34 лет, от 50 до 59 лет, старше 60 лет и старше до 9 лет имеют аналогичное количество людей.

На рисунке ниже видно, что большинство домохозяйств в городе Сан-Паулу относятся к классу C, в то время как целевые классы, представляющие интерес для проблемы, классы A и B вместе составляют 37% населения города Сан-Паулу.

На рисунке ниже видно, что большинство районов города Сан-Паулу имеют высокий потенциал. Районы с высоким и средним потенциалом вместе составляют приблизительно 84 % районов города, что указывает на то, что это отличный город для открытия ветки.

На рисунке ниже мы можем наблюдать карту города Сан-Паулу с разделением кварталов на основе их потенциала. На рисунке темно-синим цветом обозначены районы с высоким потенциалом, коричневым — со средним потенциалом, а светло-голубым — с низким потенциалом. Поскольку мы уже знали, что большинство районов имеют высокий потенциал, с помощью карты мы можем видеть, что есть несколько районов, окруженных другими районами с высоким потенциалом, что указывает на то, что они более привлекательны для открытия филиалов. Примерами таких районов являются Вила-Формоза, Жардим-Паулиста и Моэма.

На рисунке ниже мы наблюдаем карту города Сан-Паулу с сегментацией районов в зависимости от их дохода. Цвета можно интерпретировать следующим образом: чем ближе к фиолетовому, тем ниже доход этого района, а чем ближе к желтому, тем выше доход этого района. Таким образом, анализируя эту карту вместе с картой выше, мы видим, что район Моэма окружен районами с высоким потенциалом и высоким доходом для этого типа филиала, что указывает на то, что это рекомендуемый район.

Кроме того, мы можем выделить 15 районов с самым высоким предполагаемым доходом в городе Сан-Паулу, перечисленных в порядке убывания: Моэма, Пердизес, Трианон, Чакара Итаим, Вила Андраде, Вила Мариана, Сауде, Татуапе, Памплона, Параисо, Бруклин, Марешал Деодоро, Жардим Марахоара, Альфредо, Пухоль и Гранха Хульета. Все они были оценены как имеющие значительный потенциал, что делает их отличными районами для открытия филиала. В частности, выделяется район Моэма, поскольку он имеет самый высокий предполагаемый доход и находится в непосредственной близости от нескольких других районов, таких как >Бруклин и Чакара Итайм, все они входят в число 15 лучших районов с самым высоким потенциалом дохода.

На трех рисунках выше мы видим карту города Сан-Паулу с сегментацией по районам на основе количества целевых домохозяйств (A и B), населения в возрасте от 25 до 49 лет и среднего дохода. Цвета можно интерпретировать следующим образом: чем ближе к фиолетовому, тем ниже значение в этом районе, и чем ближе к желтому, тем выше значение в этом районе. Эти фрагменты информации будут полезны для помощи в разработке стратегии, инвестиций и принятии решений по маркетингу этих новых филиалов, позволяя определить тип маркетинга, который будет осуществляться в каждом районе для целевой аудитории.

  • Этот проект был написан с использованием Python в Jupyter Notebook, который можно найти в этом репозитории GitHubс полным решением.
  • Чтобы увидеть мои работы, а также этот и другие личные проекты, просто посетите мой сайт.