Предсказывать будущее полезно. Лучше предугадывать, какие стратегии вам следует принять, чтобы повлиять на будущее.

Майкл Фирн

Моделирование роста становится все более важным инструментом в наборе инструментов современного маркетолога, связанного с технологиями машинного обучения. Прогнозы роста, хотя и применимы в различных бизнес-приложениях, особенно эффективны для маркетологов, поскольку они решают одну из основных целей маркетинга: как каждый клиент отреагирует на конкретное вмешательство? В этой статье мы обсуждаем моделирование подъема для маркетинговых сценариев использования и сравниваем производительность различных распространенных алгоритмов подъема на общедоступном наборе данных.

Предварительные данные: переход от информации к оптимизации

Современные маркетинговые команды имеют в своем распоряжении различные методы анализа данных и машинного обучения. Эти методы обычно можно разделить на три группы: описательные, предсказательные или предписывающие. Модели повышения попадают в предписывающую категорию, предоставляя маркетологам информацию о том, какой маркетинговый подход им следует применять к каждому пользователю, чтобы стимулировать желаемое последующее поведение.

Что такое моделирование аплифта?

Моделирование роста - это предписывающий метод, который предсказывает, как каждый покупатель может отреагировать на маркетинговое действие. Основываясь на этих прогнозах, маркетинговые команды могут определить, на каких клиентов следует ориентироваться, чтобы максимизировать рентабельность инвестиций своей кампании.

Определение прогноза подъема включает в себя указание двух входных данных:

  • Вмешательство: Какие маркетинговые действия вы хотели бы измерить?
  • Результат. На какое событие конверсии призвано повлиять ваше вмешательство?

Например, если мы рассматриваем возможность предложения скидки (вмешательства) с целью стимулирования клиентских транзакций (результата), наш прогноз роста для клиента A может сказать нам: «Скидка увеличит вероятность покупки для клиента A на 10% по сравнению с если бы мы не предложили скидку ».

Чтобы создать модель повышения, у нас должны быть данные из рандомизированного контрольного исследования, в котором случайная группа клиентов была нацелена на вмешательство (лечебная группа), а другая случайная группа клиентов не была нацелена (группа лечения). контрольная группа"). Модель Uplift использует эту информацию, чтобы различать четыре типа пользователей (см. Изображение ниже). Если модель способна точно идентифицировать Убеждения и Sleeping Dogs, маркетологи могут определить, на каких клиентов ориентироваться, чтобы стимулировать дополнительные конверсии с помощью маркетинговой кампании.

Примеры из реального мира

Преимущества подхода Uplift распространяются на многие общие маркетинговые проблемы. Несколько примеров перечислены ниже -

Сравнение эффективности различных алгоритмов повышения уровня дохода

Хотя моделирование подъема является относительно новым методом, существует несколько алгоритмов, которые показали себя хорошо работающими в практических условиях. Мы сравнили эти алгоритмы с общедоступным набором данных из конкурса, организованного X5 и Retail Hero, чтобы оценить их относительную производительность. Цель конкурса состояла в том, чтобы определить, на каких клиентов следует направить SMS-кампанию, путем прогнозирования вероятности покупки, на которую кампания окажет наиболее положительное влияние.

Как оценить эффективность моделей повышения

Ключевой проблемой при оценке моделей подъема является отсутствие достоверной информации. То есть мы наблюдаем результат для данного клиента в экспериментальной группе, но мы не знаем, каков был бы результат, если бы клиент был в контрольной группе. Чтобы преодолеть это противоречащее факту ограничение, мы оцениваем эффективность модели Uplift для группы клиентов в рамках тестового набора удержания.

Один из распространенных методов оценки визуализируется с помощью графика «Подъемные бункеры» (см. Рисунок 1 ниже). Эти графики создаются в три этапа:

  1. Отсортируйте всех клиентов тестового набора в порядке убывания прогнозируемого прироста. Разделите пользователей на k интервалов одинаковой ширины, где интервал № 1 представляет пользователей с наибольшим прогнозируемым приростом, а интервал k представляет пользователей с наименьшим прогнозируемым приростом.
  2. В каждой ячейке вычислите два коэффициента конверсии: (1) пользователи в ячейке, получившие лечение (коэффициент конверсии лечения), и (2) пользователи в ячейке, которые не получили лечение (коэффициент конверсии управления).
  3. Рассчитайте фактический прирост в каждой ячейке путем вычитания (Коэффициент конверсии обработки - Коэффициент конверсии управления). Обратите внимание, что фактический прирост представлен как разница в процентных пунктах.

Высококачественная модель подъема покажет, что реальный подъем монотонно и резко уменьшается по интервалам. Если мы видим эту закономерность, это означает, что мы наблюдали большой положительный рост для группы пользователей с высокими прогнозами роста и небольшой рост (даже отрицательный) для пользователей с низким прогнозом роста.

Эта закономерность проиллюстрирована на гипотетическом графике с пятью ячейками на рисунке 1. Первые две ячейки показывают положительное увеличение, что указывает на то, что пользователи в этих ячейках (Persuadables) конвертируют с более высокой скоростью при обработке. Подборки 3 и 4 показывают незначительный прирост, что указывает на то, что лечение практически не влияет на этих пользователей (Верные вещи и Утраченные причины). В корзине 5 наблюдается отрицательный прирост, что указывает на то, что лечение снижает вероятность конверсии этих пользователей (Sleeping Dogs).

Распространенные алгоритмы повышения

В этом разделе мы описываем различные алгоритмы подъема. Это неполный список, и исследователи активно разрабатывают новые алгоритмы подъема.

Индивидуальная модель. Обучите единственный классификатор для прогнозирования интересующего результата и включите в качестве функции фиктивную переменную, указывающую, получал ли каждый пользователь лечение. Во время логического вывода каждому пользователю присваивается балл дважды: один раз со значением флага лечения, установленным на 1, и один раз со значением 0. Прогноз повышения для пользователя А определяется как прогноз пользователя А с лечением = 1 минус прогноз пользователя А с лечением = 0. Подробнее здесь.

Две модели. Обучите два классификатора, чтобы предсказать интересующий результат. Классификатор №1 обучается с использованием только экспериментальной группы, тогда как классификатор №2 обучается с использованием только контрольной группы. Прогноз роста для пользователя A определяется как прогноз пользователя A из классификатора №1 минус прогноз пользователя A из классификатора №2. Подробнее здесь.

Преобразование класса - обучите отдельный классификатор на основе измененной метки класса Z, где:

  • Z = 1, если лечение = 1 и конверсия = 1
  • Z = 1, если лечение = 0 и конверсия = 0
  • Z = 0, если лечение = 1 и конверсия = 0
  • Z = 0, если лечение = 0 и конверсия = 1

Эта измененная метка гарантирует, что все Persuadable находятся в группе положительных меток, а все Sleeping Dogs - в группе отрицательных меток. Прогноз роста для пользователя A определяется как прогноз пользователя A из этого классификатора. Подробнее здесь.

Преобразование регрессии. Обучите единую модель регрессии на основе измененной метки класса Z, где:

  • Z = 2, если лечение = 1 и конверсия = 1
  • Z = 0, если лечение = 0 и конверсия = 0
  • Z = -2, если лечение = 1 и конверсия = 0
  • Z = 0, если лечение = 0 и конверсия = 1

Эта измененная метка гарантирует, что Persuadables отличается от Sleeping Dogs. Прогноз подъема для пользователя А определяется как прогноз пользователя А на основе этой модели. Подробнее здесь.

Отклонение склонности. Обучите единственную модель регрессии на основе следующего ярлыка для пользователей в группе лечения:

  • Пусть Wi = априорная вероятность конверсии пользователя i до применения обработки (т. Е. Выходных данных вероятностного классификатора).
  • Пусть Ci = двоичный результат, указывающий, закончил ли пользователь преобразование постобработки
  • Метка регрессии для пользователя i определяется как Wi - C.

Если прогнозируемая конверсия пользователя отличается от фактической конверсии, этот ярлык приписывает это отклонение лечению. Прогноз подъема для пользователя А определяется как прогноз пользователя А на основе этой модели.

Результаты

Чтобы сгладить вариации, производительность указывается как среднее значение пяти запусков, где каждый запуск включает обучение на случайно выбранных 80% данных (обучающий набор) и оценку производительности на оставшихся 20% (тестовый набор).

Рисунок 2: Подъемные корзины. Для этого набора данных метод регрессионного преобразования показал самую высокую общую производительность (основанный на наиболее резком снижении фактического прироста от корзины № 1 до корзины № 5). Метод отклонения склонности оказался наименее успешным, хотя все пять алгоритмов смогли извлечь сигнал из данных. Наблюдаемый подъем был положительным почти в каждом бункере, что указывает на то, что модели обнаружили относительно небольшое количество «спящих собак». Для разных задач / наборов данных лучше всего подходят разные алгоритмы, но необходимы дополнительные исследования, чтобы понять, когда каждый подход работает лучше всего.

Когда модели Uplift работают лучше всего?

Хотя модели Uplift часто работают хорошо для широкого набора маркетинговых сценариев использования, они, как правило, работают лучше всего в определенных условиях. В частности, модели Uplift имеют наилучшие шансы на высокую производительность, когда:

  1. Цель маркетинговой группы - повлиять на краткосрочное поведение пользователей (например, на транзакцию). Если вместо этого цель состоит в том, чтобы повлиять на более долгосрочные показатели, такие как CLV, Uplift может не справиться с этой задачей.
  2. В распоряжении команды мощные маркетинговые стимулы. Если вмешательство не может существенно повлиять на поведение клиентов, возможно, не будет никакого улучшения даже для лучшей модели.

Заключение

Моделирование роста по-прежнему является активной областью исследований в сообществе специалистов по науке о данных, но его практическое применение быстро набирает обороты в мире маркетинга. Uber, Wayfair и Fidelity Investments относятся к растущему списку компаний, которые широко используют моделирование Uplift. Ряд методов Uplift уже показывают значительные перспективы в повышении рентабельности инвестиций для маркетологов, и прогресс, вероятно, будет ускоряться по мере того, как более инновационные компании исследуют этот подход.