Практический пример: анализ первопричин и анализ данных для пользователей сегмента в качестве специалиста по обработке и анализу данных

При выполнении проекта сегментации многие думают, что самым важным шагом является модель или алгоритм, но это не так. Часто меня гораздо больше впечатляют опытные аналитики, чем статистики и инженеры машинного обучения.

Лично для меня самым важным шагом является четкое определение того, что решает проблема. и как это влияет на бизнес. Кроме того, нам нужно прояснить корень проблемы, упростить сложную проблему и рассказать историю наглядно. Оттуда мы будем убеждать заинтересованные стороны близко и логично.

Наш вопрос

Как увеличить прибыль компании?

Цель: использовать следующие навыки:

Технические навыки

- SQL

- Питон

- Инструмент BI: Google Data Studio

2. Решение проблем

3. Рассказывание историй

- Упростить сложную проблему

- Расскажи историю: очевидный

Наш результат будет следовать описанному ниже процессу.

- Проблема определена, наша гипотеза о первопричине, поток мышления.

- Из данных используйте SQL для извлечения информации, необходимой для нашего анализа.

- Используйте инструмент Python/BI для анализа проблемы.

Выход

- Результаты анализа, которые включают набор пользователей сегмента для решения проблемы. После этого мы проведем A/B-тестирование, чтобы проверить результат.

Исход

По результатам нашего анализа мы будем рекомендовать бизнес-группу или консультироваться с ней для увеличения доходов.

Повестка дня

Анализ причин
ЭДА
Постановка задачи
Сегментация
A/B-тестирование

АНАЛИЗ ОСНОВНЫХ ПРИЧИН

В реальных проектах заинтересованные стороны иногда не знают, в чем основная причина или проблема.
Этот шаг очень важен, потому что он помогает вам четко понять проблему, которую вы хотите решить.

Во-первых, проведите разбивку вопроса — вопрос, на который нужно ответить: как увеличить доход.
Основываясь на некоторых популярных бизнес-моделях электронной коммерции, мы можем разбить его по-разному, например: измерение, воронка, проверенная формула и т. д. Самый простой способ – › анализ проверенной формулы.
Мы проанализируем каждую метрику и выясним, какие из них могут повлиять на увеличение дохода.

ЭДА

На первом уровне находится GSV и Take Rate, но Take Rate временно считается фиксированным, только с учетом GSV.

GSV увеличился в конце года, за последние 6 месяцев GSV достиг 6,4 млн, увеличившись на 116%. Пик приходится на ноябрь с Blackfriday.

Аналогично GSV, соответственно увеличился и Total Order, но AOV увеличился только на 2,7%, что тоже может повлиять на AOV, но это будет очень сложно.

Коэффициент отмен также показывает положительный эффект, когда постоянно снижаясь, за последние 6 месяцев года показатель отказов снизился на 38% по сравнению с началом года.

Тем не менее, уровень отмены также очень мал (‹ 1%), поэтому выполнение не влияет на выполнение.

Хотя общее количество пользователей (включая количество привлеченных пользователей) растет и достигает 29,7 тыс., что на 108 % больше, чем в предыдущем периоде. Тем не менее, средний заказ пользователя очень низок, и в течение всего срока службы поддерживается только 1 приложение.

Лишь ‹ 1 % клиентов возвращаются в следующие месяцы —›это плохой знак, когда удержание клиентов низкое.

=› Почему коэффициент удержания низкий? Является ли это основной причиной?

Далее следует операция, средняя стоимость доставки = 16,1, 10% от стоимости заказа, а в некоторых местах до 42,4 (40% от стоимости заказа очень высока).
Срок доставки высок = 11 дней, особенно в удаленном месте до 29 дней.

Мало того, что расчетное время по сравнению с фактическим слишком отличается до 12 дней, хотя реальность быстрее, чем оценка, это также вызывает дискомфорт у клиентов, хотя это на 14% меньше, чем раньше.

-› плохой опыт -› низкий коэффициент конверсии =› необходимо оптимизировать время доставки =› это может быть фактором, влияющим на коэффициент удержания.

ПОСТАНОВКА ПРОБЛЕМЫ

СЕГМЕНТАЦИЯ

В реальном проекте мы следуем этим шагам.

K-средние, подходящие для всех функций, являются лучшей моделью из-за кластеров вариаций, быстрого поезда и большего количества значений в каждом кластере.

Но после многих тестов мы выбираем Kmean по всем функциям и модели RFM.

Не все клиенты одинаково важны, у них разные потребности и разное поведение. Существуют разные способы сегментации в зависимости от вашей цели. Чтобы увеличить уровень удержания, мы можем сегментировать на основе вероятности оттока и принять меры. Для простоты я буду использовать модель RFM.

RFM расшифровывается как Недавность — Частота — Денежная стоимость.

В данном случае выделяют три сегмента клиентов:

Низкая ценность: неактивные клиенты, не являющиеся постоянными покупателями/посетителями и приносящие очень небольшой доход.

Средняя ценность: среднее значение, но ниже высокой ценности и приносит умеренный доход.

Высокая ценность: группа, которую мы не хотим потерять. Высокий доход, низкая частота и низкая неактивность.

По оси X показано, сколько раз клиент покупал продукт, а по оси Y — частота. Диаграмма искажена: большинство клиентов покупают продукт менее 5 раз или, точнее, всего один раз.

Используйте Kmean для разделения на 4 сегмента для каждой переменной (отсортируйте значения по порядку перед сегментированием).

Диаграмма перекошена влево с большинством продуктов с низким доходом.

Суммируйте баллы переменных вместе, например:

Пользователь А имеет: Недавность = 3, Частота = 2, Доход = 3

=› Общий балл = 8

Приведенный выше общий показатель ясно показывает нам, что клиент с оценкой 8 является нашим лучшим клиентом, а оценка 0 — нашим худшим клиентом.

Для простоты партитура переименована:

от 0 до 2: низкое значение

от 3 до 4: среднее значение

5+: высокое значение

Мы видим, насколько четко сегменты отличаются друг от друга с точки зрения RFM.

Мы можем начать действовать с этими сегментами. Основные стратегии:

Высокое значение: увеличение коэффициента удержания.

Среднее значение: увеличить коэффициент удержания + увеличить частоту.

Низкое значение: увеличить частоту

СЕГМЕНТАЦИЯ-KMEAN

cps: цена за продажу, когда пользователь использует ваучер.
процент_дис_орд: общее количество заказов без скидки / общее количество заказов
eff: общее количество заказов / общее количество пользователей

Исходя из среднего и медианы кластеров, мы можем разделить их на несколько кластеров следующим образом:

Кластер 0: среднее значение

достаточно низкий объем заказов.
хороший показатель недавности.
малоактивный день.
средняя стоимость CPS.

Кластер 1: значение прибыли

средний объем заказа.
стоимость cps довольно низкая.

Кластер 2: Утраченный потенциал

активный день и давность очень низки

Кластер 3: высокая ценность

оба активных дня очень высоки

Кластер 4: низкая ценность

активный день и недавность низки

Кластер 5: масса

заказы ‹ 3, поэтому все функции очень низкие

A/B-тестирование для геймификации

Например, мы выбираем группу Mid Value для проведения A/B-теста.

A/B — СРЕДНЕЕ ЗНАЧЕНИЕ

* Назначение группы значений MID: увеличение эффективности

Все A лучше, чем B в stp

=› A намного лучше, чем B

Заключение

Мы завершили настоящий проект сегментации. В дополнение к алгоритмическим навыкам мы практиковали навыки, необходимые для того, чтобы стать учеными данных.

Следуйте за мной для более подробной информации о каждом шаге, таком как «Как построить дерево основных причин», «А/Б-тестирование» и «Алгоритм кластера»… Я напишу их позже.