Sprocket Central Pty Ltd., организация среднего размера по производству велосипедов и велосипедных аксессуаров, обратилась к команде Lighthouse & Innovation Team KPMG. Sprocket Central Pty Ltd хочет узнать больше об опыте КПМГ в своей команде по аналитике, информации и моделированию. В первую очередь им нужна помощь с данными о клиентах и ​​транзакциях. У организации есть большой набор данных, касающихся ее клиентов, но их команда не знает, как эффективно анализировать их, чтобы помочь оптимизировать свою маркетинговую стратегию. Модель сегментации клиентов — это способ разделения клиентов на группы на основе определенных общих характеристик этих клиентов. Все клиенты имеют общую потребность в определенных продуктах или услугах, но помимо этого существуют явные демографические различия (например, возраст, пол, годовой доход), и они, как правило, имеют дополнительные социально-экономические, образ жизни или другие поведенческие различия, которые могут быть полезными. для организации и бизнеса в целом.

Набор данных Список новых клиентов показывает потенциальных новых клиентов, которые были у организации за последние три месяца. Он состоит из 1000 строк и может быть загружен с https://in.insidesherpa.com. Клиент предоставил KPMG 3 набора данных:

  • Демография клиентов
  • Адреса клиентов
  • Данные о транзакциях за последние 3 месяца

ШАГ 1: ОБРАБОТКА И ИЗУЧЕНИЕ ДАННЫХ

Набор демографических данных о клиентах –

1. В столбце DOB 87 пустых записей или отсутствующих записей, в поле Tenure 87 пустых записей, а 495 клиентов имеют пустые должности.

2. Человек с идентификатором клиента 34 имеет год рождения 1843, что практически невозможно, поскольку это будет означать, что ему / ей 177 лет.

3. 88 клиентов имеют пол, определенный как U.

4. Отрасль труда была указана как н/д для 656 клиентов.

5. Поскольку столбец «Пол» является столбцом категориальных данных, было бы лучше и проще для анализа, если бы все значения были в форме Ж/М или Женский/Мужской.

Новый набор данных списка клиентов

1. 17 клиентов имеют пол, определенный как U.

2. Столбец DOB пуст для 17 клиентов.

3. 106 клиентов не указали свои должности, а отраслевая категория для 165 клиентов не указана.

4. У всех клиентов умерший индикатор имеет значение N. Это кажется немного странным.

Набор данных адреса клиента-

1. столбец состояния имеет коды состояний для некоторых строк данных и целые имена состояний для других. Поскольку это категориальные данные, лучше иметь все записи состояний в виде кодов состояний.

Набор данных о транзакциях

1. Столбец онлайн-заказа содержит пустые значения для 360 клиентов, 197 пустых значений для линейки продуктов, столбцов размера продукта и класса продукта.

2. Столбец Product_first_sold_date должен иметь значения в формате даты, но в нем есть записи в виде 6-значных чисел, которые нельзя отличить от дат.

3. Столбец стандартной стоимости имеет некоторые значения, такие как 312,7350159,667,4000244, в то время как другие значения указаны в долларах и есть 197 пустых значений.

Меры по смягчению последствий

1. Различные столбцы, такие как марка покупки или должность, имеют пустые значения в определенных записях. Для ключевых наборов данных, таких как транзакции, менее 1 % транзакций (в сумме менее 0,1 % дохода) имеют отсутствующие поля. Эти записи были удалены из набора обучающих данных.

2. Несовместимые значения одного и того же атрибута (например, Виктория представлена ​​как «V», «Vic» и «Victoria»). Чтобы создать значимые переменные для модели, данные были очищены, чтобы избежать многократного представления одного и того же значения. Кроме того, во время моделирования были удалены гендерные записи, где буква «U» была удалена.

3. Несовместимый тип данных для одного и того же атрибута (например, числовые значения для одних полей и строки для других). Наличие разных типов данных для данного поля затрудняет интерпретацию результатов на более позднем этапе. Поэтому выполняются соответствующие преобразования данных, чтобы обеспечить согласованность типов данных для данного поля.

4. Все пустые, отсутствующие и н/д значения были удалены, поскольку они составляли очень небольшую часть всего набора данных.

ШАГ 2: АНАЛИЗ ДАННЫХ И РАЗРАБОТКА МОДЕЛИ

Набор данных транзакции

Интерпретации: -

а) На первой гистограмме показано количество транзакций, совершенных в каждой категории брендов, наибольшее значение имеет Solex, за ней следуют Giant Bicycles и WeareA2B с почти таким же количеством транзакций. Следовательно, клиент должен больше сосредоточиться на увеличении продаж продукции марки Solex и должен рассмотреть возможность внесения определенных улучшений с точки зрения вопросов качества для других марок, чтобы максимизировать охват рынка и прибыль.

б) Вторая гистограмма представляет линию транспортировки для каждого продукта. Можно сделать вывод, что для каждого бренда было совершено максимальное количество транзакций для продуктов, транспортируемых по стандартной линии, по сравнению с продуктами, транспортируемыми по автомобильным, горным или туристическим линиям.

Новый набор данных о клиентах

Интерпретации: -

а) Новые клиенты принадлежат трем штатам Австралии: Квинсленд с 208 потенциальными клиентами, Новый Южный Уэльс с 452 клиентами и город Виктория с 234 клиентами.

б) Во всех трех штатах максимальное количество клиентов относится к сектору финансовых услуг, здравоохранения и производства. Следовательно, клиент должен сосредоточиться на привлечении большего числа клиентов, принадлежащих к этим отраслям.

в) Клиенты в возрастной группе 30–40 и 40–50 лет совершили максимальное количество покупок за последние 3 года.

РАЗРАБОТКА МОДЕЛИ С ИСПОЛЬЗОВАНИЕМ КЛАСТЕРИЗАЦИИ K-СРЕДНИХ

Кластеризация K-средних — один из самых простых и популярных алгоритмов машинного обучения без учителя. Этот алгоритм обычно группирует точки данных в k кластеров, что помогает нам обнаружить основные закономерности в наборе данных. Кластер относится к группе точек данных, разделенных вместе из-за определенного сходства между ними. Алгоритм идентифицирует k центроидов, а затем распределяет каждую точку данных по ближайшему центроиду, сохраняя при этом центроиды как можно меньшими.

Шаги о том, как работает алгоритм -

  1. Выберите количество кластеров K.
  2. выберите K центроидов случайным образом (не обязательно из набора данных)
  3. Назначьте каждую точку данных ближайшему центроиду, чтобы сформировать K кластеров.
  4. Вычислите и поместите новый центроид для каждого кластера.
  5. Переназначьте каждую точку данных новому кластеру. В случае замены вернитесь к шагу 4, иначе модель готова.

Чтобы выбрать правильное количество кластеров, мы используем WCSS (сумма квадратов кластера) и метод локтя.

Давайте импортируем библиотеки и набор данных

Затем мы используем метод локтя, чтобы найти оптимальное количество кластеров.

wcss рассчитывается как -

где xi относится к каждой точке данных в кластере, а ci относится к соответствующему центроиду каждого кластера, а m — количество кластеров.

По мере увеличения количества кластеров значение wcss уменьшается, а форма впадины или изгиба дает нам подходящее количество кластеров для использования. Здесь их 4. Таким образом, мы используем 4 кластера, чтобы соответствовать нашей модели.

На последнем шаге мы рисуем наши кластеры и визуализируем.

В первой модели основным объектом привлечения клиентов должны быть клиенты, принадлежащие к зеленому кластеру в возрастной группе 20–40 лет и совершающие наибольшее количество покупок. Клиент также должен обратиться к большему количеству клиентов, принадлежащих к кластерам 1 и 4 первой модели, поскольку они совершают среднее количество покупок, которое можно увеличить за счет лучшей маркетинговой стратегии.

Во второй модели клиенты, принадлежащие к кластеру 5, должны иметь высокий охват, поскольку они оба имеют высокую заработную плату и также совершают больше покупок. Кроме того, клиенты кластера 2 имеют высокую заработную плату и по-прежнему не совершают крупных покупок, поэтому с ними следует больше общаться.