Узнайте о внутренней работе нашей модели машинного обучения для прогнозирования оттока приложений.

Автор: Лиза Орр, старший научный сотрудник, Urban Airship

Узнайте, как мы создали наше решение Predictive Churn, от специалиста по данным, который воплотил его в жизнь, нашей собственной Лизы Орр. (Этот контент изначально был опубликован в Inside Big Data и перепечатывается здесь с разрешения.)

Стоимость приобретения новых приложений стремительно растет, поэтому удержание пользователей, которые уже установили, имеет решающее значение для максимизации затрат на приобретение и пожизненной ценности клиентов. Команда специалистов по изучению данных Urban Airship в течение последнего года разрабатывала способ выявления и нацеливания на пользователей, которые, скорее всего, перестанут использовать ваше приложение. Мы называем это прогнозируемым оттоком.

Здесь я рассказываю о процессе построения масштабируемой модели прогнозирующего машинного обучения для миллиардов событий и рассказываю, как эти возможности прогнозирования приводят к новому пониманию поведения пользователей, стимулируют новые стратегии взаимодействия и влияют на удержание пользователей.

Прогнозирование оттока: разработка модели машинного обучения

Прогнозирование оттока - это простая проблема классификации: вернуться в прошлое, посмотреть на активность пользователей, проверить, кто останется активным через определенный момент времени, а затем придумать модель, которая отделяет пользователей, которые остаются активными, от тех, кто этого не делает. . Каковы наилучшие индикаторы вероятности того, что пользователь будет продолжать открывать приложение, имея кучу данных?

Для начала мы можем посмотреть на общую активность пользователя в приложении. Как часто человек открывает приложение? Как недавно они его открыли? Если мы пытаемся предсказать, кто откроется в ближайшем будущем, хорошим индикатором может быть то, открывает ли пользователь приложение уже или нет. Как насчет влияния получения push-уведомлений? Влияет ли выбор на их получение в первую очередь на активность пользователей в приложении?

Оглядываясь на данные клиентов за 60 дней, мы объединили отправку сообщений и открытие приложений в градуированные окна с дополнительной информацией, такой как платформа устройства и идентификатор приложения. Затем мы пометили каждого пользователя как «отбывшего» или «отказавшегося» в зависимости от того, откроют ли они приложение в следующие 30 дней.

›› Связанный сравнительный отчет: Как push-уведомления влияют на уровень удержания мобильных приложений

Получив данные о функциях для каждого пользователя, мы обучили модель, используя алгоритм машинного обучения деревьев решений с градиентным усилением. Мы провели шестимесячное историческое исследование прогнозирования оттока, обучив модель множеству функций (то есть наблюдаемому поведению пользователей и приложений). Наша цель состояла в том, чтобы получить высокий уровень точности в прогнозировании оттока, а также понять, какие факторы на него влияют.

Изучив модель и выяснив, какие функции оказали наибольшее влияние, мы обнаружили несколько интересных закономерностей:

Открытая активность. Самым главным предсказателем будущей активности является то, сколько времени прошло с момента их последнего открытия. В этом есть смысл, поскольку мы пытаемся предсказать противоположное направление относительно времени. Количество открытий в пределах недавних временных окон и новизна открытий играют большую роль в прогнозировании того, кто собирается уйти.

Действия по отправке. Еще одним интересным открытием стало то, что получение push-уведомлений положительно сказалось на удержании пользователей. Это снова имеет смысл - если вы решите включить push-уведомления, вы сигнализируете об активном интересе к приложению и готовности узнать больше о его ценности.

Недавнее исследование данных, проведенное отделами по анализу данных и маркетингу Urban Airship, иллюстрирует это. У пользователей, получивших хотя бы одно push-уведомление, показатель удержания на 66% выше, чем у пользователей, которые не получали push-сообщения.

Мы также обнаружили корреляцию между количеством полученных отправлений и оставшимися днями, когда чем больше сообщений получил пользователь, тем дольше он продолжал использовать приложение. Как и в случае открытых подсчетов, в моделировании оттока пользователей сыграли роль как новизна, так и частота отправок.

Масштабирование модели для мобильных устройств

Теперь, когда мы создали рабочую модель, следующим шагом было проверить ее способность масштабироваться до тысяч приложений и миллиардов пользователей.

Добавление дополнительных приложений быстро выявило слабое место: повторная обработка данных из csv (результат задания MapReduce для создания наших данных функций) в разреженную матрицу (формат, необходимый для модели с усиленными деревьями). Этот шаг обработки приводил к сбою задания из-за проблем с памятью. Добавление вычислительных ресурсов решит проблему временно, но по мере добавления новых приложений стало ясно, что нам необходимо пересмотреть нашу стратегию. Запись в CSV была полезна на этапе разработки, чтобы мы могли дважды проверить нашу работу. Но помимо того, что он был удобочитаемым, от использования промежуточного формата не было никакой реальной пользы.

Вместо этого мы переформатировали данные функций в разреженные матрицы непосредственно в самом задании MapReduce. До сих пор дальнейшая нехватка памяти решалась добавлением дополнительных машин на этапе MapReduce или увеличением размера отдельной машины, используемой на этапе моделирования. С изменением форматирования мы можем обучать нашу модель одновременно в тысячах приложений.

Создание модели

Когда у нас была масштабная рабочая модель, следующим шагом было выяснить, как лучше всего предоставлять эти прогнозы нашим клиентам. Для каждого пользователя, которого мы вводим в нашу модель, мы получаем оценку вероятности оттока от нуля до единицы. Чем выше оценка, тем больше мы уверены в том, что пользователь уйдет. Точно так же, чем ниже оценка, тем больше мы уверены, что этот пользователь останется.

Если вы посмотрите на внешние границы вероятности оттока, вы обнаружите, что у вашего приложения есть супер-поклонники (те, кто определенно вернется), а также более сложные покровители. А посередине находится смешанная группа людей, где модель менее уверена в том, каким путем они пойдут.

Эта концепция модели привела нас к сегментации пользователей на три группы: группы высокого, среднего и низкого риска. Такая отправка прогнозов дает нашим клиентам возможность корректировать сегментацию своей аудитории в зависимости от того, насколько агрессивна их стратегия взаимодействия.

Например, если вы пытаетесь повторно привлечь пользователей из группы риска, вы можете увеличить предлагаемое вознаграждение, включив только аудиторию с высоким уровнем риска, или уменьшить его, если вы включите аудиторию как с высоким, так и со средним уровнем риска.

После того, как пользователь был отнесен к категории высокого, среднего или низкого риска оттока, данные немедленно становятся доступными через наш поток мобильных данных в реальном времени для анализа или действий в других системах, на информационных панелях для просмотра пятинедельной эффективности и визуализации для покажите, насколько эффективны ваши усилия по переводу пользователей из состояния повышенного риска в состояние пониженного риска.

Прогнозирование оттока в дикой природе

Чтобы проиллюстрировать, как Predictive Churn может влиять на стратегию взаимодействия (и наоборот), вот несколько анонимных клиентов Urban Airship и их соответствующие распределения баллов оттока:

Над визуализациями: гистограммы оценок прогнозируемого оттока пользователей для трех примеров приложений Urban Airship. Каждая полоса представляет собой процент пользователей, вероятность оттока которых попадает в указанный диапазон. Цвета представляют категорию риска: зеленый - низкий риск, желтый - средний риск, красный - высокий риск. Прогнозы были сделаны 3 февраля 2017 г.

Сравнивая три приложения, представленные гистограммами выше, мы можем увидеть очень разные распределения пользователей для прогнозирования оттока:

  • Для приложения А большинство пользователей относятся к группе низкого риска.
  • Для приложения Б большинство пользователей относятся к группе повышенного риска.
  • Для приложения C мы видим бимодальное распределение, при котором большая группа пользователей относится к группе высокого риска, а другая большая группа пользователей - к группе низкого риска.

Как прогнозирование оттока связано со стратегией взаимодействия с приложением? У всех трех приложений большая аудитория (более 3 миллионов уникальных устройств), и все три используют push-сообщения для привлечения своих пользователей. Однако есть большая разница в том, как эти приложения подходят к взаимодействию.

  • Приложение A (приложение с низким уровнем риска) имеет очень сложную стратегию взаимодействия с широким использованием расширенных функций (например, теги, списки жизненного цикла, уведомления в приложении, центр сообщений и т. д.), ориентированные на большую часть своей аудитории. с сегментированными толчками и получают высокий уровень взаимодействия с этими сообщениями (через прямое или контролируемое открытие приложений).
  • Приложение B (приложение с высоким риском) использует очень простую стратегию обмена сообщениями с очень простой сегментацией, редко отправляет сообщения ограниченному сегменту своей аудитории и почти не привлекает аудиторию.
  • Приложение C (приложение с бимодальным распределением показателей оттока) имеет стратегию компромисса. Они используют несколько расширенных функций взаимодействия, таких как псевдонимы, значки и глубокие ссылки, отправляют почти исключительно широковещательные (неперсонализированные) сообщения и видят, что аудитория активно взаимодействует с этими сообщениями.

Сравнивая прогноз оттока и стратегию взаимодействия с приложением, наши клиенты могут определить области, требующие улучшения, повлиять на эти изменения и сравнить, как показатели оттока меняются от недели к неделе.

Что касается приложения B, мы бы порекомендовали настроить таргетинг на большую часть их аудитории, чаще обмениваться сообщениями и расширять использование стратегии обмена сообщениями до альтернативных способов общения, таких как обмен сообщениями внутри приложения и центр сообщений, а также улучшить таргетинг с помощью тегов и именованного пользователя.

Что касается приложения C, мы бы предложили отказаться от широковещательных рассылок, а также явно нацелиться на аудиторию с высоким уровнем риска.

Что дальше

Прогнозирующий отток позволяет компаниям обращаться к клиентам в нужное время по нужному каналу и с правильным контентом, чтобы превратить их из клиента, а не уходящего, в того, который остается. Но это только начало возможностей науки о данных и машинного обучения. Вскоре для компаний станет стандартом использовать данные для отправки автоматических и проактивных уведомлений и улучшения взаимодействия с клиентами.

Первоначально опубликовано на сайтах Inside Big Data и www.urbanairship.com.