1. Введение

Потеря клиентов дорого обходится любому бизнесу. По мнению авторов книги «Leading on the Edge of Chaos» [1], уменьшение оттока клиентов на 2% эквивалентно сокращению затрат на 10%. Более того, согласно Управлению по делам потребителей Белого дома [2], привлечение новых клиентов обходится в 6–7 раз дороже, чем удержание старых. Выявление недовольных клиентов на раннем этапе с учетом их ценностей и риска оттока клиентов дает вам возможность предложить им стимулы остаться. Примеры оттока клиентов включают отмену подписки, закрытие учетной записи, отказ от продления контракта или соглашения о предоставлении услуг или использование другого поставщика услуг.

Отток может происходить по разным причинам, и анализ оттока клиентов помогает определить причину и время этого оттока, что позволяет реализовать эффективные стратегии удержания оттока.

Вот восемь этапов жизненного цикла науки о данных, чтобы убедиться, что на основе данных были приняты мудрые решения для борьбы с оттоком клиентов:

1- Понять бизнес-модель, требования и риски.

2- Соберите доступное поведение клиентов, транзакции, демографические данные и модели использования.

3- Сформулируйте начальные гипотезы на основе знаний в предметной области и исследовательского анализа, который поможет в определении показателей для решения этих гипотез.

4- Выполните необходимую обработку данных, чтобы получить очищенный набор данных, пригодный в качестве входных данных для модели машинного обучения.

5- Используйте эти точки данных для создания модели, которая прогнозирует сегменты клиентов, которые с большой вероятностью уйдут.

6- Оцените результаты, чтобы убедиться, что модель удовлетворяет исходным бизнес-целям.

7- Сообщите результаты заинтересованным сторонам.

8- Разверните модель в производственной системе.

2. Жизненный цикл проекта прогнозирования оттока клиентов

2.1. Деловое понимание

Организации тратят огромные деньги на привлечение клиентов. Еще до того, как клиент будет приобретен, вы должны повысить осведомленность о бренде и продукте, а также заинтересовать клиентов. Это требует больших усилий на протяжении всей воронки продаж с использованием большого количества маркетинговых и торговых ресурсов. После того, как покупатель приобретен, его следует беречь дорого (по крайней мере, тот, у кого есть высокая пожизненная ценность). Знание того, какие клиенты имеют высокую склонность к оттоку, имеет решающее значение для целевых усилий по удержанию [4].

2.2. Сбор данных

В нашей задаче мы используем файл набора данных с расширением .csv, который общедоступен на GitHub [3]. Однако для оптимизации нашей модели может потребоваться больше данных через другие каналы, такие как парсинг веб-страниц, API, открытые данные или базы данных.

Введение в набор данных

Большинство операторов мобильной связи имеют исторические записи о том, какие клиенты в конечном итоге отказались от услуг, а какие продолжали пользоваться их услугами. Эта историческая информация может быть использована для построения модели машинного обучения (ML) оттока одного оператора связи с помощью процесса, называемого обучением. После обучения и тестирования модели мы можем передать информацию профиля случайного покупателя, чтобы предсказать, уйдет ли этот покупатель или останется. Вот примеры первых 5 наблюдений:

Это относительно небольшой набор данных, всего 3333 записи, где каждая запись использует первые 20 атрибутов для описания профиля определенного клиента и последний атрибут для обозначения этого клиента. Это набор данных неизвестного оператора мобильной связи США. Вот словарь данных [5]:

1- Штат: штат США, в котором проживает заказчик, обозначается двухбуквенным сокращением.

2- Длина учетной записи: количество дней, в течение которых эта учетная запись была активна.

3- Код города: трехзначный код зоны соответствующего номера телефона клиента.

4- Телефон: оставшийся семизначный номер телефона

5. Международный план: есть ли у клиента план международных звонков: да / нет

6- План VMail: есть ли у клиента функция голосовой почты: да / нет

7- Сообщение VMail: предположительно среднее количество сообщений голосовой почты в месяц.

8- Day Mins: общее количество минут разговора, использованных в течение дня.

9-дневные звонки: общее количество звонков, сделанных в течение дня.

10-дневная плата: начисленная стоимость дневных звонков.

11- Eve Mins: общее количество минут разговоров, использованных в течение вечера.

12- Eve Calls: общее количество звонков, сделанных в течение вечера.

13- Eve Charge: начисленная стоимость звонков в вечернее время.

14- Night Mins: общее количество минут разговоров, использованных в течение ночи.

15- Ночные звонки: общее количество звонков, сделанных за ночь.

16- Ночная оплата: начисленная стоимость ночных звонков.

17- Intl Mins: общее количество международных минут.

18- Международные звонки: общее количество международных звонков.

19- Intl Charge: начисленная стоимость международных звонков.

20- CustServ Calls: количество обращений в службу поддержки клиентов.

21- Churn ?: покинул ли клиент сервис: true / false

2.3. Гипотезы

Вот две исходные гипотезы, которые были предложены на основе знания предметной области и исследования данных:

1. Большее количество обращений в службу поддержки клиентов за определенный период указывает на то, что клиент сталкивается с множеством проблем, и, следовательно, существует высокая вероятность оттока.

2- Клиенты с высокой общей выставленной стоимостью с большей вероятностью будут искать другого оператора, если они недовольны текущим обслуживанием.

2.4. Подготовка данных

Эти четыре критерия можно использовать для обеспечения качества нашего набора данных:

I. Завершено: в наших данных нет пропущенных значений или нулей. Однако по некоторым параметрам, особенно по демографии, не хватает. Такие характеристики, как раса, этническая принадлежность, пол, возраст, образование, профессия, род занятий, уровень дохода и семейное положение, могут повысить точность прогноза.

II. Чистый: номера телефонов - это уникальные значения, поэтому их можно анонимно закодировать и использовать в качестве индекса строки. Кроме того, номинальные или логические атрибуты, такие как планы и наша целевая переменная (Churn? :), необходимо преобразовать в числовые значения, которые являются обязательным форматом для использования в качестве входных данных для алгоритмов машинного обучения.

III. Точность: выбросы и значения, которые не имеют смысла, необходимо визуализировать и обсуждать с заинтересованными сторонами, следует ли включать эти данные или нет.

IV. Технические характеристики: необходимо добавить некоторые функции, чтобы развеять нашу гипотезу. Хотя это может не помочь в качестве предсказательной силы, но может помочь в визуализации данных за счет уменьшения размерности. Первую функцию, которая касается в основном 1-й гипотезы, можно назвать CScalls Rate, которая определяется как CustServ Calls / Account Length. Второй, который рассматривает вторую гипотезу, общий заряд = дневной заряд + накануне + ночной заряд + международный заряд.

2.5. Алгоритмы

Наша проблема была сформулирована как предсказание того, откажется клиент или нет. Следовательно, это проблема классификации. Перед обучением нашего алгоритма обучения данные необходимо разделить на три случайных набора. Например:

· 60% данных будут использоваться для обучения разных алгоритмов или одного и того же алгоритма с разными параметрами.

· Еще 20% данных для перекрестной проверки, чтобы выбрать модель с наименьшими ошибками.

· Оставшиеся 20% для проверки точности модели-победителя перекрестной проверки.

Практика, подобная той, которую мы только что объяснили, или такая, как случайный лес, исправляет привычки алгоритмов обучения к переобучению обучающих наборов.

Предсказание того, какой клиент уйдет, - это еще не конец. Маркетинговая группа обычно определяет предложения по удержанию, и они хотели бы знать клиентов с точки зрения ценности и риска, чтобы они могли распространять свои разработанные рекламные акции. Следуя классификации, мы можем сгруппировать ожидаемых оттока клиентов в разные кластеры, используя неконтролируемый алгоритм, такой как K-Means.

2.6. Оценка

Интерпретация результатов: после запуска различных моделей машинного обучения классификации необходимо оценить такие показатели анализа ошибок, как точность, отзыв и оценка F, чтобы выбрать модель с наивысшим значением F. Если выбранная нами модель предсказывает отток клиентов с высокой точностью, это хороший показатель того, что наши гипотезы верны. В противном случае потребуется больше исследований данных и больше вопросов к людям, обладающим знаниями в предметной области, чтобы сформулировать другие гипотезы, переформатировать некоторые функции или создать новые. Опять же, нам нужно обучить и протестировать наши модели, чтобы проверить влияние этих изменений.

2.7. Отчетность

Получив максимально возможную точность, этот результат должен быть передан заинтересованным сторонам, чтобы проверить, можно ли перейти к следующему этапу, а именно кластеризации, или они недовольны такой точностью, и есть необходимость преодолеть эту проблему. Например, демографические данные для клиентов можно получить из другого отдела или компании, что было невозможно получить с самого начала или даже во время настройки алгоритмов.

2.8. Развертывание

Модель прогнозирования вероятности оттока может быть интегрирована с бизнес-процессом управления оттоком. Развертывание модели в производственной системе обычно требует, чтобы модель была перекодирована для производственной среды, обычно для большей скорости или совместимости с существующей системой. Это может повлечь за собой значительные расходы и вложения.

3. Заключение

Этот жизненный цикл от понимания бизнеса, сбора и обработки данных, формулирования гипотез, моделирования, оценки результатов и отчетности до развертывания модели является важным концептуальным инструментом для размышлений о проектах по науке о данных, таких как то, что мы сделали в нашем дизайне для прогнозирования оттока клиентов. Успешный проект в области науки о данных предполагает разумный компромисс между возможностями данных и целями проекта.

4. Ссылки

1. Коннер, Д. (1998). На грани хаоса. Нью-Йорк: Джон Вили.

2. Белый дом. (2019). Белый дом. [онлайн] Доступно по адресу: https://www.whitehouse.gov

3. GitHub. (2019). albayraktaroglu / Наборы данных. [онлайн] Доступно по адресу: https://github.com/albayraktaroglu/Datasets.git

4. Dunnsolutions.com. (2019). Решения для анализа и управления оттоком клиентов. [онлайн] Доступно по адресу: https://www.dunnsolutions.com/content/customer-churn-reduction1

5. Веб-службы Amazon. (2019). Прогнозирование оттока клиентов с помощью машинного обучения Amazon | Amazon Web Services. [онлайн] Доступно по адресу: https://aws.amazon.com/blogs/machine-learning/predicting-customer-churn-with-amazon-machine-learning/