При выполнении проекта сегментации многие думают, что самым важным шагом является модель или алгоритм, но это не так. Часто меня гораздо больше впечатляют опытные аналитики, чем статистики и инженеры машинного обучения.
Лично для меня самым важным шагом является четкое определение того, что решает проблема. и как это влияет на бизнес. Кроме того, нам нужно прояснить корень проблемы, упростить сложную проблему и рассказать историю наглядно. Оттуда мы будем убеждать заинтересованные стороны близко и логично.
Наш вопрос
Как увеличить прибыль компании?
Цель: использовать следующие навыки:
- Технические навыки
- SQL
- Питон
- Инструмент BI: Google Data Studio
2. Решение проблем
3. Рассказывание историй
- Упростить сложную проблему
- Расскажи историю: очевидный
Наш результат будет следовать описанному ниже процессу.
- Проблема определена, наша гипотеза о первопричине, поток мышления.
- Из данных используйте SQL для извлечения информации, необходимой для нашего анализа.
- Используйте инструмент Python/BI для анализа проблемы.
Выход
- Результаты анализа, которые включают набор пользователей сегмента для решения проблемы. После этого мы проведем A/B-тестирование, чтобы проверить результат.
Исход
По результатам нашего анализа мы будем рекомендовать бизнес-группу или консультироваться с ней для увеличения доходов.
Повестка дня
- Анализ причин
- ЭДА
- Постановка задачи
- Сегментация
- A/B-тестирование
АНАЛИЗ ОСНОВНЫХ ПРИЧИН
В реальных проектах заинтересованные стороны иногда не знают, в чем основная причина или проблема.
Этот шаг очень важен, потому что он помогает вам четко понять проблему, которую вы хотите решить.
Во-первых, проведите разбивку вопроса — вопрос, на который нужно ответить: как увеличить доход.
Основываясь на некоторых популярных бизнес-моделях электронной коммерции, мы можем разбить его по-разному, например: измерение, воронка, проверенная формула и т. д. Самый простой способ – › анализ проверенной формулы.
Мы проанализируем каждую метрику и выясним, какие из них могут повлиять на увеличение дохода.
ЭДА
На первом уровне находится GSV и Take Rate, но Take Rate временно считается фиксированным, только с учетом GSV.
GSV увеличился в конце года, за последние 6 месяцев GSV достиг 6,4 млн, увеличившись на 116%. Пик приходится на ноябрь с Blackfriday.
Аналогично GSV, соответственно увеличился и Total Order, но AOV увеличился только на 2,7%, что тоже может повлиять на AOV, но это будет очень сложно.
Коэффициент отмен также показывает положительный эффект, когда постоянно снижаясь, за последние 6 месяцев года показатель отказов снизился на 38% по сравнению с началом года.
Тем не менее, уровень отмены также очень мал (‹ 1%), поэтому выполнение не влияет на выполнение.
Хотя общее количество пользователей (включая количество привлеченных пользователей) растет и достигает 29,7 тыс., что на 108 % больше, чем в предыдущем периоде. Тем не менее, средний заказ пользователя очень низок, и в течение всего срока службы поддерживается только 1 приложение.
Лишь ‹ 1 % клиентов возвращаются в следующие месяцы —›это плохой знак, когда удержание клиентов низкое.
=› Почему коэффициент удержания низкий? Является ли это основной причиной?
Далее следует операция, средняя стоимость доставки = 16,1, 10% от стоимости заказа, а в некоторых местах до 42,4 (40% от стоимости заказа очень высока).
Срок доставки высок = 11 дней, особенно в удаленном месте до 29 дней.
Мало того, что расчетное время по сравнению с фактическим слишком отличается до 12 дней, хотя реальность быстрее, чем оценка, это также вызывает дискомфорт у клиентов, хотя это на 14% меньше, чем раньше.
-› плохой опыт -› низкий коэффициент конверсии =› необходимо оптимизировать время доставки =› это может быть фактором, влияющим на коэффициент удержания.
ПОСТАНОВКА ПРОБЛЕМЫ
СЕГМЕНТАЦИЯ
В реальном проекте мы следуем этим шагам.
K-средние, подходящие для всех функций, являются лучшей моделью из-за кластеров вариаций, быстрого поезда и большего количества значений в каждом кластере.
Но после многих тестов мы выбираем Kmean по всем функциям и модели RFM.
Не все клиенты одинаково важны, у них разные потребности и разное поведение. Существуют разные способы сегментации в зависимости от вашей цели. Чтобы увеличить уровень удержания, мы можем сегментировать на основе вероятности оттока и принять меры. Для простоты я буду использовать модель RFM.
RFM расшифровывается как Недавность — Частота — Денежная стоимость.
В данном случае выделяют три сегмента клиентов:
Низкая ценность: неактивные клиенты, не являющиеся постоянными покупателями/посетителями и приносящие очень небольшой доход.
Средняя ценность: среднее значение, но ниже высокой ценности и приносит умеренный доход.
Высокая ценность: группа, которую мы не хотим потерять. Высокий доход, низкая частота и низкая неактивность.
По оси X показано, сколько раз клиент покупал продукт, а по оси Y — частота. Диаграмма искажена: большинство клиентов покупают продукт менее 5 раз или, точнее, всего один раз.
Используйте Kmean для разделения на 4 сегмента для каждой переменной (отсортируйте значения по порядку перед сегментированием).
Диаграмма перекошена влево с большинством продуктов с низким доходом.
Суммируйте баллы переменных вместе, например:
Пользователь А имеет: Недавность = 3, Частота = 2, Доход = 3
=› Общий балл = 8
Приведенный выше общий показатель ясно показывает нам, что клиент с оценкой 8 является нашим лучшим клиентом, а оценка 0 — нашим худшим клиентом.
Для простоты партитура переименована:
от 0 до 2: низкое значение
от 3 до 4: среднее значение
5+: высокое значение
Мы видим, насколько четко сегменты отличаются друг от друга с точки зрения RFM.
Мы можем начать действовать с этими сегментами. Основные стратегии:
Высокое значение: увеличение коэффициента удержания.
Среднее значение: увеличить коэффициент удержания + увеличить частоту.
Низкое значение: увеличить частоту
СЕГМЕНТАЦИЯ-KMEAN
- cps: цена за продажу, когда пользователь использует ваучер.
- процент_дис_орд: общее количество заказов без скидки / общее количество заказов
- eff: общее количество заказов / общее количество пользователей
Исходя из среднего и медианы кластеров, мы можем разделить их на несколько кластеров следующим образом:
Кластер 0: среднее значение
- достаточно низкий объем заказов.
- хороший показатель недавности.
- малоактивный день.
- средняя стоимость CPS.
Кластер 1: значение прибыли
- средний объем заказа.
- стоимость cps довольно низкая.
Кластер 2: Утраченный потенциал
- активный день и давность очень низки
Кластер 3: высокая ценность
- оба активных дня очень высоки
Кластер 4: низкая ценность
- активный день и недавность низки
Кластер 5: масса
- заказы ‹ 3, поэтому все функции очень низкие
A/B-тестирование для геймификации
Например, мы выбираем группу Mid Value для проведения A/B-теста.
A/B — СРЕДНЕЕ ЗНАЧЕНИЕ
* Назначение группы значений MID: увеличение эффективности
Все A лучше, чем B в stp
=› A намного лучше, чем B
Заключение
Мы завершили настоящий проект сегментации. В дополнение к алгоритмическим навыкам мы практиковали навыки, необходимые для того, чтобы стать учеными данных.
Следуйте за мной для более подробной информации о каждом шаге, таком как «Как построить дерево основных причин», «А/Б-тестирование» и «Алгоритм кластера»… Я напишу их позже.