СЕРИЯ НАУКИ О ДАННЫХ

Продажа супермаркетов | Бизнес-анализ

Одномерный, двумерный и многомерный анализ с использованием IBM SPSS Modeler

Привет! 👋
Я UX-дизайнер, меня заинтересовал бизнес-анализ с использованием методов интеллектуального анализа данных. Надеюсь, вы найдете эту статью познавательной 😉

Он был вдохновлен этой удивительной статьей Ирфана Фадхуллы.

Набор данных 🛒

Найдите этот набор данных на Kaggle 🤘

Контекст набора данных

Рост супермаркетов в большинстве населенных городов увеличивается, и рыночная конкуренция также высока. Набор данных представляет собой одну из исторических продаж компании супермаркетов, которая записывала данные в 3 разных филиалах за 3 месяца.

Информация об атрибутах

  1. Идентификатор счета: Идентификационный номер, сгенерированный компьютером
  2. Филиал: Филиал супермаркета (A, B, C)
  3. Город: Расположение супермаркета (Янгон, Нейпьидо, Мандалай)
  4. Тип клиента: тип клиентов (обычный, участник)
  5. Пол: Пол клиентов (мужской, женский)
  6. Линейка продуктов: Категории товаров (Еда и напитки, Здоровье и красота, электронные аксессуары, Модные аксессуары, Дом и образ жизни, Спорт и путешествия)
  7. Цена за единицу: Цена продукции в долларах США
  8. Количество: количество продуктов, купленных каждым покупателем.
  9. Налог: 5% налоговый сбор сверх суммы покупки
  10. Итого: общая стоимость покупки, включая налог.
  11. Дата: Дата покупки (с января 2019 г. по март 2019 г.)
  12. Время: Время покупки (с 10:00 до 21:00)
  13. Оплата: Способы оплаты (электронный кошелек, наличные, кредитная карта)
  14. COGS: стоимость проданных товаров
  15. Процент валовой прибыли: Процент валовой прибыли от покупки.
  16. Рейтинг: рейтинг расслоения клиентов от каждого клиента (от 1 до 10)

Понимание бизнеса 🕴

Клиент

Сеть супермаркетов в Мьянме

Бизнес-цель

Увеличить валовой доход супермаркета C (Naypyitaw)

Деловые вопросы

  1. Сегментируйте «высокоприбыльных» и «низкоприбыльных» клиентов, чтобы разработать индивидуальную маркетинговую стратегию для увеличения продаж супермаркета C.
  2. Как на валовой доход влияют цена за единицу, количество и другие переменные, такие как день, временной интервал и продуктовая линейка в целом?
  3. Как цена за единицу зависит от валового дохода, количества и других переменных, таких как день, временной интервал и линейка продуктов?
  4. Найдите и объясните взаимосвязь между полом и продуктовой линейкой, оплатой, валовым доходом для отделения С?
  5. Найдите и объясните взаимосвязь между типом клиента и полом, днем, временным интервалом для отделения C?
  6. Прогнозировать день будущих покупок клиентов.

Цель интеллектуального анализа данных

  1. Создайте модель кластеризации, чтобы сегментировать клиентов с высокой и низкой прибылью супермаркета C.
  2. Создайте модель для анализа взаимосвязи между различными переменными супермаркета.
  3. Создайте модель прогнозирования, чтобы предсказать день будущей покупки.

Понимание данных 🤔

Анализ типа поля

Очевидно, что идентификатор счета-фактуры определяется как «бестиповый», поскольку он содержит дефисы между ними, которые не могут быть определены как действительный тип измерения. Принимая во внимание, что такие поля, как филиал, город, линейка продуктов и платеж, являются «номинальными» и имеют несколько значений. Тип клиента и пол являются бинарными полями и, таким образом, имеют «флаговое» измерение. А остальные переменные являются «непрерывными», поскольку они имеют диапазон числовых значений.

Количество записей

Давайте кратко проанализируем количество записей и количество отдельных полей, чтобы понять общее состояние набора данных. Я использовал агрегатные и табличные узлы, чтобы найти конкретное количество записей.

Этот набор данных содержит 1000 записей с распределением по отдельным ветвям: 340 записей ветви A, 328 записей ветви B и 332 записи ветви C. Тип клиента и пол равномерно распределены: 501 член и 499 обычных клиентов, 499 мужчин и 501 женщина. Линейка продуктов имеет широкое распространение: 170 электронных аксессуаров, 178 модных аксессуаров, 174 продуктов питания и напитков, 152 товаров для здоровья и красоты, 160 товаров для дома и образа жизни и 166 товаров для спорта и путешествий. Способ оплаты разделен на 3 категории с 345 электронными кошельками, 344 наличными и 311 кредитными картами.

Однофакторный анализ 🧐

3.3.1 Есть ли разница в совокупных продажах по всем филиалам?

Узел графа распределения использовался для нахождения частоты категориального поля «Ветвь». Нет большой разницы в продажах во всех филиалах A, B и C. Но продажи в филиале A немного выше, чем в остальных филиалах. Вот числовые данные о продажах филиала,

а. Филиал А — 340

б. Филиал Б — 332

в. Филиал С — 328

3.3.2 Какой способ оплаты наиболее популярен среди клиентов?

Узел графа распределения использовался для нахождения частоты категориального поля «Платеж». Способ оплаты через электронный кошелек является самым популярным, но наличные также очень популярны. Наименее используемым способом оплаты является кредитная карта. Вот числовые данные используемого метода оплаты,

а. Наличные — 344

б. Кредитная карта — 311

в. Электронный кошелек — 345

3.3.3. Какая линейка продуктов наиболее популярна во всех филиалах?

Узел графа распределения использовался для определения частоты категориального поля «Линейка продуктов». Самая популярная линейка продуктов — это модные аксессуары, а вторая по популярности линейка продуктов — продукты питания и напитки. Вот числовые данные различных линеек продуктов (количество покупок),

а. Электронные аксессуары — 170 р. Модные аксессуары — 178 гр. Еда и напитки — 174 р. Здоровье и красота — 152 у.е. Дом и образ жизни — 160 ф. Спорт и путешествия — 166

3.3.4. Какой пол делает больше покупок?

Узел графа распределения использовался для определения частоты флагового поля «Пол». Очевидно, что люди обоих полов совершают почти одинаковое количество покупок. Но женщины, как правило, зарабатывают больше, чем мужчины, если посмотреть более внимательно. Вот числовые данные о покупках, сделанных на основе гендерных данных,

а. Мужской — 499

б. Женский — 501

Двумерный анализ 🤓

3.4.1 Влияет ли валовой доход на оценки, которые ставят клиенты?

Узел точечной диаграммы использовался для создания точечной диаграммы с линией тренда между валовым доходом и рейтингом. Поскольку линия тренда достаточно пологая, можно сделать вывод, что валовой доход не оказывает существенного влияния на рейтинг стратификации клиентов.

3.4.2. Какой тип клиентов приносит больше прибыли, если учитывать рейтинг стратификации клиентов?

Узел графика использовался для визуализации данных в виде гистограммы с накоплением. Наглядно видно, что клиенты, принадлежащие к категории Member, покупают больше, чем обычные клиенты. Таким образом, участники обеспечивают более высокий валовой доход по сравнению с обычными клиентами.

И клиенты, которые принадлежат к диапазону рейтинга стратификации клиентов от 6 до 8, покупают больше, чем другие диапазоны рейтинга.

Вот числовые данные валового дохода от обоих типов клиентов,

Участник = $7820,164

Обычный = 7559,205 долларов США

Вот числовые данные валового дохода от клиентов с рейтингом от 6 до 8,

Валовой доход = 5564,311 долларов США.

3.4.3 Какая отрасль самая прибыльная?

Узел графической доски использовался для построения графика между филиалом и валовым доходом. Наглядно видно, что ветвь C является самой прибыльной ветвью среди всех трех. Принимая во внимание, что филиалы A и B равны по прибыли. Вот числовые данные валового дохода от всех филиалов,

а. Филиал А = 5 057,2 долл. США

б. Филиал B = 5 057,2 долл. США

в. Филиал C = 5 265,2 долл. США

3.4.4. Какой пол приносит больше прибыли супермаркету?

Узел графической доски использовался для визуализации этого графика между полом и валовым доходом. Наглядно видно, что женщины вносят основной вклад в прибыль супермаркета. Вот числовые данные о валовом доходе с разбивкой по полу:

а. Мужчина = 7 384,9 долларов США

б. Женщина = 7 994,4 доллара США

3.4.5. Какая линейка продуктов самая прибыльная?

Узел графической доски использовался для построения графика между валовым доходом и линейкой продуктов. Видно, что категория «Еда и напитки» самая прибыльная, а «Спорт и путешествия» — вторая по доходности. Вот числовые данные о валовом доходе по каждой линейке продуктов:

а. Электронные аксессуары — $2 587,5 млрд. Модные аксессуары — 2586 долларов c. Еда и напитки — $2673,6 d. Здоровье и красота — $2 342,6 e. Дом и образ жизни — $2564,9 f. Спорт и путешествия — $2624,9

Корреляционный анализ 📉

3.5.1 Как другие поля влияют на валовой доход супермаркета?

Для нахождения корреляции между этими полями использовались статистика и узел графического планшета. Совершенно очевидно, что валовой доход сильно коррелирует с ценой за единицу, количеством и общей суммой счета. Интересным фактом является то, что рейтинг расслоения клиентов не коррелирует с валовым доходом. Итак, мы можем сделать вывод, что клиенты оцениваются не на основе прибыли, которую они приносят супермаркету или любой другой области.

Подготовка данных 👩‍🍳

Обнаружение выбросов

При использовании узла аудита данных не было обнаружено никаких выбросов.

Очистка данных

4.2.1 Удалить лишнее поле: Налог 5%, Город

Как показано в таблице, оба эти поля являются избыточными. Итак, я решил отфильтровать поле «Налог 5%» при использовании набора данных.

Поскольку город и филиал дают нам почти одинаковую информацию, поэтому я решил отфильтровать поле «город» при использовании набора данных.

4.2.2 Исправлено форматирование даты

Как показано в таблице, дата не отформатирована в едином стиле даты (как в США, так и в Великобритании). И разделитель тоже смешанный (дефис и косая черта). Итак, я использовал опцию «Текст в столбцы» в Excel, чтобы исправить проблему с форматированием даты и стилем разделителя.

4.2.3 Создать новое поле: день

Как показано в таблице, было создано новое поле под названием «День», чтобы указать день соответствующей даты для получения более подробных сведений из набора данных. Функция «ТЕКСТ» в Excel использовалась для преобразования дат в дни.

4.2.4 Создать новое поле: временной интервал

Как показано в таблице, новое поле под названием «Временной интервал» было создано для указания временного интервала (утро, день, вечер и ночь) для получения более подробных сведений из набора данных. Используя узел «Вывод» и задайте несколько номинальных правил, чтобы разделить данные на 4 разные категории.

4.2.5 Удаление ненужного поля: идентификатор счета, процент валовой прибыли

Просто чтобы иметь необходимые поля для дальнейшего моделирования данных, я решил отфильтровать поле Invoice ID. Кроме того, идентификатор счета-фактуры имеет измерение «Без типа», что не оказывает существенного влияния на дальнейшие шаги.

Поскольку процент валовой прибыли тот же «4,762%», это не имеет никакого значения для моих деловых вопросов.

Дополнительный анализ 📊

После того, как я создал новые переменные, я хотел бы проанализировать и узнать ответы на некоторые вопросы. Это может обеспечить другой взгляд на бизнес-цель.

5.1. Какой день недели является наиболее прибыльным с точки зрения валового дохода?

Узел графической доски использовался для построения гистограммы валового дохода в зависимости от дня. Совершенно очевидно, что самым прибыльным днем ​​в течение недели является «суббота», за которой следует «вторник». И воскресенье, четверг и среда работают почти одинаково. Вот числовые данные валового дохода за каждый день,

а. Понедельник = 1804,7 доллара США

б. Вторник = 2451,5$

в. Среда = 2082,4 доллара США

д. Четверг = 2159,5 долларов США

е. Пятница = 2091,7 доллара США

ф. Суббота = 2672,4 доллара США

г. Воскресенье = 2 117,0 долларов США

5.2. Какой временной интервал дня является наиболее прибыльным с точки зрения валового дохода?

Узел графической доски использовался для построения гистограммы между валовым доходом и временным интервалом. Очевидно, что прибыль выше во второй половине дня, за которой следует утренний временной интервал. Вот числовые данные валового дохода за каждый временной интервал,

а. Утро = $2942,8

б. День = 7 048,7 долларов США

в. Вечер = 24414 долларов.

д. Ночь = 2946,4 долларов США.

5.3. В какой день валовой доход утром, днем, вечером и ночью является наиболее прибыльным?

Узел графической доски использовался для визуализации графика зависимости валового дохода от дня и времени. Ниже приведены подробные числовые данные валового дохода,

Утром,

  1. Воскресенье = 19,057 долларов США
  2. Среда = 17,711 долларов США

В течение днем,

  1. вторник = $18,054

Вечером,

  1. Суббота = 18,744$

В течение ночи,

  1. Четверг = 18,358 долларов США
  2. Пятница = $18,283

Таким образом, супермаркет может воспользоваться этой тенденцией и предоставить своим клиентам лучший опыт. Вот числовое

Моделирование 📳

Кластеризация

5.1.1. Сегментируйте клиентов с высокой и низкой прибылью, чтобы разработать индивидуальную маркетинговую стратегию для супермаркета C вместе с дополнительными характеристиками.

Узел Auto Cluster использовался для быстрого поиска лучшего кластера с лучшим значением силуэта с использованием 2 различных методов кластеризации (K-средних и двухэтапного).

Кластерный анализ помогает сегментировать различных клиентов по их уникальным характеристикам, что может помочь супермаркету разработать индивидуальную маркетинговую стратегию.

К-средние и двухэтапная кластеризация

Узел выбора использовался для выбора данных только из ветви C, а узел разделения использовался для разделения данных на 80–20, чтобы избежать проблем переобучения. Поскольку в данных не указаны клиенты с высокой и низкой прибылью, а также рейтинг стратификации клиентов не имеет прямого отношения к валовому доходу, мы должны сгруппировать набор данных на основе следующих функций:

  1. Тип клиента
  2. Линейка продуктов
  3. День
  4. Временной интервал
  5. Оплата
  6. Налог

Принимая во внимание лучшее значение силуэта, я построил график между количеством кластеров и их соответствующим значением силуэта, чтобы выбрать лучшую модель.

Проанализировав значение силуэта и качество кластера для обоих методов кластеризации, я решил использовать кластеризацию K-средних, состоящую из 6 кластеров со вторым по величине значением силуэта 0,338.

Как мы видим, качество кластера почти нормальное, без потенциального переобучения. Теперь давайте посмотрим на все 6 кластеров, сформированных с использованием алгоритма K-средних.

Описывая кластер высокой прибыли,

  1. Размер: это второй по величине кластер (18,5%) среди всех 6 кластеров.
  2. Предпочтительный платеж: Ewallet для всех (100%)
  3. Тип клиента: Обычный (100%)
  4. Валовой доход: 17,56 долларов США (выше среднего значения 12,925 долларов США).
  5. Частый день: четверг (26,1%), затем вторник и суббота.
  6. Частый временной интервал: вторая половина дня (60,9%)
  7. Линейка часто покупаемых товаров: модные аксессуары (23,9%), за которыми следуют продукты питания и напитки, здоровье и красота.

Вывод: Удивительно, что обычные клиенты получают самую высокую прибыль (валовой доход) по сравнению с клиентами-членами. Они покупают в основном во второй половине дня по четвергам, используя для оплаты свой электронный кошелек. Кроме того, они в основном покупают товары из Модных аксессуаров.

Описывая кластер с низкой прибылью,

  1. Размер: это самый маленький кластер (11,6%) среди всех 6 кластеров.
  2. Предпочтительная оплата: Кредитная карта для всех (100%)
  3. Тип клиента: Обычный (100%)
  4. Валовой доход: 12,28 доллара (ниже среднего 12,925 доллара).
  5. Частый день: среда (24,1%), затем вторник, четверг и суббота.
  6. Частый временной интервал: после обеда (44,8%).
  7. Линейка часто покупаемых товаров: модные аксессуары (24,1%), за которыми следуют здоровье и красота.

Вывод: очевидно, что обычные покупатели принадлежат к этому кластеру с наименьшим валовым доходом в размере 12,28 доллара. В основном они покупают по средам во второй половине дня с помощью кредитной карты, чтобы купить модные аксессуары.

Линейная регрессия

Линейная регрессия использовалась для поиска линейных отношений между различными непрерывными переменными. Я пытался использовать несколько вариантов с разными целевыми переменными и разными разделениями, но существенной разницы в показателе R2 обнаружено не было.

5.2.1 Как на валовой доход влияют цена за единицу, количество и другие переменные, такие как день, временной интервал и линейка продуктов.

Поскольку вопрос также касается номинальных переменных, мне пришлось преобразовать их в переменные на основе флагов, чтобы я мог использовать их в моделировании линейной регрессии. Вот переменные, участвующие в моделировании,

Входные переменные

  1. Цена за единицу — непрерывная
  2. Количество — непрерывное
  3. День — Номинал → Флаг
  4. Временной интервал — номинальный → флаг
  5. Продуктовая линейка — Номинал → Флаг

Цель

  1. Валовой доход — непрерывный

Узел SetToFlag использовался для преобразования номинала в флаг,

Очевидно, что оценка R2 остается неизменной, даже если меняется разделение на разделы.

Мы можем заключить, что показатель R2 является существенным (0,892), и данные достаточно хорошо соответствуют модели. Кроме того, статистическая значимость равна 0,000, поэтому результаты значимы.

Вот результаты регрессионной модели,

Из коэффициентов очень убедительно следует, что количество (2,796) является наиболее влиятельной переменной для валового дохода супермаркета. Кроме того, положительное влияние оказала цена за единицу (0,2772) с интересной информацией о продажах во вторник (0,2211) с оплатой кредитной картой (0,519). Наконец, товары для дома и образа жизни (0,3098) вносят наибольший положительный вклад в валовой доход супермаркета.

5.2.2 Как на рейтинг влияют цена за единицу, количество и валовой доход?

Было очевидно, что оценка R2, равная 0,004, является самой низкой и не позволяет делать какие-либо выводы из модели.

5.2.3. Как цена за единицу зависит от валового дохода, количества и других переменных, таких как день, временной интервал и линейка продуктов.

Поскольку вопрос также касается номинальных переменных, мне пришлось преобразовать их в переменные на основе флагов, чтобы я мог использовать их в моделировании линейной регрессии. Вот переменные, участвующие в моделировании,

Входные переменные

  1. Валовой доход — непрерывный
  2. Количество — непрерывное
  3. День — Номинал → Флаг
  4. Временной интервал — номинальный → флаг
  5. Продуктовая линейка — Номинал → Флаг

Цель

  1. Цена за единицу — непрерывная

Узел SetToFlag использовался для преобразования номинала в флаг,

Очевидно, что оценка R2 остается неизменной, даже если меняется разделение на разделы.

Мы можем заключить, что показатель R2 является существенным (0,785), и данные достаточно хорошо соответствуют модели. Кроме того, статистическая значимость равна 0,000, поэтому результаты значимы.

Вот результаты регрессионной модели,

Убедительно, что валовой доход (2,823) оказывает наибольшее влияние на цену за единицу. Кроме того, Понедельник (2,372), Утро (1,767), Оплата наличными (0,1373) имеют положительную связь с ценой за единицу.

Логистическая регрессия

Логистическая регрессия использовалась для поиска связи между переменными и влияния одной переменной на другую. В общем, я пытался ответить на нижеизложенное 4 разными способами, чтобы найти наилучшую точность. Вот четыре комбинации обучения и тестирования набора данных для достижения максимальной точности:

  1. Полный набор данных с разделением 80–20
  2. Полный набор данных с разделением 75–25
  3. Набор данных только ветви C с разделением 80–20
  4. Набор данных только отделения C с разделением 75–25

Вот полная версия набора данных,

Вот версия Branch C,

5.3.1 Найдите и объясните взаимосвязь между полом и линейкой продуктов, оплатой, валовым доходом для отделения C.

Давайте сначала посмотрим на точность всех четырех версий,

а. Полный набор данных с разделением 80–20 — 52,4%

б. Полный набор данных с разделением 75–25 — 55,82 %

в. Набор данных только ветви C с разделением 80–20 — 41,77%

д. Набор данных только отделения C с разделением 75–25 — 41,3%

Как мы знаем из предыдущих данных, женщины вносят больший вклад в валовой доход супермаркета, чем мужчины. Итак, я решил установить базовую категорию для цели как женщины и получить больше информации о мужчинах.

Вот некоторые выводы из уравнения регрессии:

  1. (-0,1909) Клиенты-мужчины вносят наименьший вклад в валовой доход при оплате наличными
  2. (0,8547) Покупатели-мужчины также вносят больший вклад в валовой доход, тратя на товары для дома и стиль жизни.
  3. (0,1328) Покупатели-мужчины в основном покупают товары для дома и образа жизни по всему миру, а модные аксессуары оплачиваются наличными.
  4. (-0,8603) Аналогичным образом, электронные аксессуары меньше всего или вообще никогда не покупаются клиентами-мужчинами за наличные.
  5. (-0,2663) Покупатели-мужчины не покупают товары для дома и образа жизни с помощью кредитной карты

5.3.2. Найдите и объясните взаимосвязь между типом клиента и полом, днем ​​и временным интервалом для отделения C.

Давайте сначала посмотрим на точность всех четырех версий,

а. Полный набор данных с разделением 80–20 — 46,77%

б. Полный набор данных с разделением 75–25 — 51,81%

в. Набор данных только ветви C с разделением 80–20 — 51,9%

д. Набор данных только ветви C с разделением 75–25 — 53,26 %

Поиск потенциальных обычных покупателей для превращения их в участников может быть полезен для супермаркета, поэтому я установил членов в качестве базовой категории.

Вот некоторые выводы из уравнения регрессии:

  1. (0,5286) Обычные покупатели, совершающие покупки в понедельник, являются самыми высокими
  2. (0,4463) Они предпочитают делать покупки по утрам
  3. (0,7156) Обычные покупатели, которые являются женщинами и совершают покупки в четверг, являются самыми высокими
  4. (1.673) Обычные покупатели, которые являются женщинами и совершают покупки во вторник днем, являются самыми высокими
  5. (-1,413) Обычные покупатели, совершающие покупки в понедельник утром, меньше всего
  6. (-0,7133) Обычные покупатели женского пола, совершающие покупки в пятницу, меньше всего

5.3.3 Найдите и объясните линейку продуктов взаимосвязи между филиалом, типом клиента, полом и днем ​​​​для филиала C.

Давайте сначала посмотрим на точность всех четырех версий,

а. Полный набор данных с разделением 80–20 — 17,91 %

б. Полный набор данных с разделением 75–25 — 16,47%

в. Набор данных только ветви C с разделением 80–20 — 12,66%

д. Набор данных только ветви C с разделением 75–25 — 10,87%

Поскольку линейка продуктов «Здоровье и красота» является худшей по валовому доходу по предыдущим данным, я решил сосредоточиться на ней.

Вот некоторые выводы из уравнения регрессии:

  1. (0,2857) Линейка товаров для здоровья и красоты работает лучше в Филиале B
  2. (0,4387) Линия товаров для здоровья и красоты показала лучшие результаты в пятницу
  3. (0,7856) Линейка товаров для здоровья и красоты показала лучшие результаты в воскресенье в филиале А
  4. (1,714) Линейка товаров для здоровья и красоты показала лучшие результаты в пятницу в отделении B
  5. (1.191) Линейка продуктов для здоровья и красоты лучше работает по воскресеньям у клиентов-участников
  6. (-1,828) Линия продуктов для здоровья и красоты показала худшие результаты в воскресном рейтинге женщин

Подводя итог, можно сказать, что разделение 75–25 имело лучшие показатели точности, но с немного другими входными наборами данных. Но на каждый вопрос отвечают с большей точностью при различных комбинациях данных.

Классификация: Ближайший сосед

Из-за предварительно классифицированных данных о линейках продуктов и меньшего количества непрерывных входных данных я не смог найти никаких выводов или идей. Кроме того, это не было проблемой классификации. Итак, я обнаружил, что этот метод моделирования неприменим к моему набору данных.

Прогнозирование: нейронные сети и случайные леса

Я выбрал два алгоритма, чтобы предсказать день покупки, взяв некоторые функции из набора данных. Чтобы получить другую перспективу, я преобразовал номинальную переменную линейки продуктов в непрерывную числовую переменную. Вот как я преобразовал номинальный в непрерывный,

Сначала я выбрал поле, которое хотел изменить, и присвоил каждому параметру новые значения.

И поскольку эти новые значения были в строковом формате, мне пришлось преобразовать их в числовой формат.

Теперь давайте рассмотрим входные данные и цель, используемые для обучения обеих моделей.

Входные данные

  1. Количество — непрерывное
  2. Цена за единицу — непрерывная
  3. Итого — непрерывно
  4. Линейка продуктов (R) — непрерывная

Цель

  1. День — Номинал

Давайте теперь посмотрим, как обе модели работают с одними и теми же входными данными и целью одного и того же набора данных.

Нейронные сети

Модель показала себя не очень хорошо. Он не смог точно определить дни по сравнению с фактическими данными. Это можно сделать с плохим правильным процентом всего 13,41%.

Случайный лес

Модель работала очень хорошо, имея возможность очень точно предсказывать дни по сравнению с реальными данными. Правильный % составил 96,34%.

В заключение можно сказать, что Random Forest была лучшей моделью для прогнозирования дня покупки в заданном наборе данных.

Прогноз: деревья решений (C 5.0, CHAID)

Я выбрал два алгоритма, чтобы предсказать день покупки, взяв некоторые функции из набора данных. Чтобы получить другую перспективу, я преобразовал номинальную переменную линейки продуктов в непрерывную числовую переменную. Вот как я преобразовал номинальный в непрерывный,

Сначала я выбрал поле, которое хотел изменить, и присвоил каждому параметру новые значения.

И поскольку эти новые значения были в строковом формате, мне пришлось преобразовать их в числовой формат.

Теперь давайте рассмотрим входные данные и цель, используемые для обучения обеих моделей.

Входные данные

  1. Количество — непрерывное
  2. Цена за единицу — непрерывная
  3. Итого — непрерывно
  4. Линейка продуктов (R) — непрерывная

Цель

  1. День — Номинал

Давайте теперь посмотрим, как обе модели работают с одними и теми же входными данными и целью одного и того же набора данных.

Узел C 5.0 и CHAID использовался для прогнозирования дня покупки

Я использовал обе модели напрямую, чтобы получить индивидуальный прогноз. Давайте сравним правильный процент от каждой модели и другой процент разделения данных,

C 5,0 (распределение 80–20) Правильный процент и уравнение,

CHAID (разделение 80–20) Правильный процент и уравнение,

C 5,0 (разделение 75–25) Правильный процент и уравнение,

CHAID (распределение 75–25) Правильный процент и уравнение,

До сих пор можно сделать вывод, что эти модели не лучше, чем модель случайного леса. Давайте попробуем другую комбинацию с введением узла логистической регрессии с теми же процентами разделения,

C 5.0 + CHAID + логистическая регрессия (разделение 80–20),

C 5.0 + CHAID + логистическая регрессия (разделение 75–25),

Итак, мы снова можем сделать вывод, что случайный лес был лучшей моделью для предсказания дня покупки.

Оценка 🙋‍♂️

Вопрос 1. Сегментируйте клиентов с высокой и низкой прибылью, чтобы разработать индивидуальную маркетинговую стратегию для увеличения продаж супермаркета C.

Результаты. Группа малоприбыльных клиентов предпочитает оплату кредитной картой, и все они являются обычными клиентами. В основном они покупают во второй половине дня по средам и в основном покупают модные аксессуары.

Бизнес-акция: предоставление кэшбэка и скидок за покупки, сделанные с помощью кредитных карт, и продвижение членства в супермаркете среди обычных клиентов.

Вопрос 2. Как на валовой доход влияют цена за единицу, количество и другие переменные, такие как день, временной интервал и линейка продуктов в целом?

Результаты. Из коэффициентов видно, что количество (2,796) является наиболее влиятельной переменной для валового дохода супермаркета. Кроме того, положительное влияние оказала цена за единицу (0,2772) с интересной информацией о продажах во вторник (0,2211) с оплатой кредитной картой (0,519). Наконец, товары для дома и образа жизни (0,3098) вносят наибольший положительный вклад в валовой доход супермаркета.

Бизнес-действие. Продвижение продаж товаров для дома и образа жизни через несколько каналов коммуникации, а также эксклюзивные распродажи по вторникам могут помочь супермаркету увеличить прибыль. Наконец, продажа дорогих продуктов может действительно увеличить валовой доход.

Вопрос 3. Как на цену единицы товара влияет валовой доход, количество и другие переменные, такие как день, временной интервал и линейка продуктов?

Результаты: очевидно, что валовой доход (2,823) оказывает наибольшее влияние на цену за единицу товара. Кроме того, Понедельник (2,372), Утро (1,767), Оплата наличными (0,1373) имеют положительную связь с ценой за единицу.

Бизнес-акция: проведение кампаний перекрестных продаж и эксклюзивных комбо-предложений по утрам в понедельник на дорогие продукты для увеличения валового дохода супермаркета.

Вопрос 4. Найдите и объясните взаимосвязь между полом и линейкой продуктов, оплатой и валовым доходом для отделения C.

**Результаты: (**0,1909) Покупатели-мужчины вносят наименьший вклад в валовой доход при оплате наличными. (0,8547) Покупатели-мужчины также вносят больший вклад в валовой доход, тратя на товары для дома и стильные товары. (0,1328) Покупатели-мужчины в основном покупают товары для дома и образа жизни по всему миру, а модные аксессуары оплачиваются наличными (0,8603). Точно так же электронные аксессуары меньше всего или вообще никогда не покупают покупатели-мужчины за наличные (0,2663). Клиенты-мужчины не покупают товары для дома и образа жизни с помощью кредитной карты.

Бизнес-действие: продвижение предложений и скидок на товары для мужчин и объединение их с самыми продаваемыми товарами для женщин для увеличения общей прибыли.

Вопросы 5 и 6. Найдите и объясните взаимосвязь между типом клиента и полом, днем ​​и временным интервалом для отделения C? Прогнозировать день будущих покупок клиентов.

**Результаты: (**0,5286) Обычные покупатели, совершающие покупки в понедельник, занимают первое место. (0,4463) Они предпочитают делать покупки по утрам (0,7156) Наибольшее количество обычных покупателей, которые совершают покупки в четверг, составляют женщины. (1,673) Наибольшее количество обычных покупателей, которые совершают покупки во вторник днем, являются женщинами. (1.413) Меньше всего обычных покупателей, совершающих покупки в понедельник утром. (0,7133) Меньше всего обычных покупателей, которые совершают покупки в пятницу.

Бизнес-действие. Эксклюзивные скидки для участников в понедельник, четверг и вторник могут помочь увеличить доход от подписки для участников. Кроме того, это также увеличит продажи продукции.

Я резюмировал весь мой процесс, и я надеюсь, что это помогло вам!

Купи мне пива 🍺

Вы можете поддержать меня, чтобы написать больше таких статей здесь

Вы можете хлопать 50 раз 👏, вы знали?

Нажмите и удерживайте значок хлопков, пока не достигнете 50.

Надеюсь, это поможет вам подготовиться! Не стесняйтесь обращаться ко мне,
👨‍💼 LinkedIn| 💌 Электронная почта | 🐤 Твиттер