В этой серии мы разработаем рекламную стратегию для Starbucks и пройдем весь процесс от предварительной обработки данных до моделирования.

В заключительной части серии мы расскажем о разработке функций, реализации модели повышения, дополнительных корректировках модели и данных, а также о результатах проекта.

Ссылка на часть 1 этой статьи.

Код, сопровождающий эту статью, можно найти здесь.

VII. Разработка функций

Имея всего 4 демографических атрибута, разработка признаков может оказаться полезной.

Клиенты часто долгое время не получали рекламных акций. Следовательно, кумулятивные значения и скользящие средние значения будут использоваться для фиксации прошлого транзакционного поведения клиентов.

Совокупные суммы будут рассчитаны для следующих статистических данных:

1. общие расходы

2. количество транзакций

3. прибыль

Например, совокупная прибыль в момент времени N составит

Совокупная прибыль на момент времени N = Совокупная прибыль на момент времени 0 + … + Совокупная прибыль на момент времени N-1

Обратите внимание, что вычисление кумулятивных сумм за месяц N будет основано на значениях от месяца 0 до месяца N-1, чтобы избежать утечки данных.

Аналогичным образом были рассчитаны скользящие средние (скользящие средние) той же статистики. Например:

Скользящее среднее прибыли на момент времени N = Совокупная прибыль на момент времени N / количество месяцев.

Совокупная статистика и скользящие средние будут вычисляться для каждого «идентификатора предложения», включая ситуации, не связанные с рекламой (представленные «идентификатором предложения 10»), и на накопительной основе (все предложения и отсутствие предложений).

Например, мы вычислим:

· Совокупная прибыль в момент времени N для предложения с идентификатором 0

· Совокупная прибыль в момент времени N для предложения с идентификатором 1

· …

· Совокупная прибыль в момент времени N для предложения с идентификатором 10

· Общая совокупная прибыль в момент времени N для всех предложений с идентификатором 0–10

Кроме того, будут добавлены совокупные расходы на транзакцию (общие расходы / общее количество транзакций) и совокупная прибыль на транзакцию (общая прибыль / общее количество транзакций).

Любые отсутствующие значения будут заполнены 0, поскольку нулевые значения указывают на то, что клиент еще не совершал никаких транзакций.

Наконец, будут рассчитаны месячные задержки этих спроектированных функций, чтобы наша модель могла фиксировать недавние изменения в поведении транзакций.

Поскольку нет предыдущего месяца до месяца 0, инженерные функции для месяца 0 и функции задержки на 1 месяц для месяца 1 будут полностью состоять из нулевых значений. Таким образом, мы отбросим месяцы 0 и 1 из наших обучающих данных.

Еще раз, из-за большого количества созданных фич, я воздержусь от их перечисления в этой статье. Для получения дополнительной информации обратитесь к коду в моем репозитории GitHub, расположенном в файле generate_monthly_data.ipynb.

VIII. Модель повышения индикатора и стратегия продвижения

Мы будем использовать единую модель для прогнозирования вероятности получения прибыли как от рекламного, так и от нерекламного воздействия. На этапе обучения создается индикаторная переменная, чтобы отслеживать, относится ли точка данных из monthly_data к рекламной акции.

У каждого типа предложения будет своя модель, поэтому будет достаточно одной индикаторной переменной для каждой модели. Обоснование использования отдельных моделей будет обсуждено в ближайшее время.

Особенности обучения для продвижения «идентификатор предложения 0». Столбец «offer_id_0» обслуживает переменную индикатора, которая отслеживает, принадлежит ли точка данных «offer_id_0» (индикатор = 1) или принадлежит ли она экземпляру, не являющемуся предложением (индикатор = 0). Обратите внимание, что другие функции обучения были сокращены с помощью PCA, процесс, который мы вскоре обсудим.

После того, как модель обучена, ее можно использовать для формулирования нашей рекламной стратегии.

Чтобы предсказать, должен ли человек получить продвижение по службе при тестировании нашей стратегии, мы можем предсказать вероятность прибыли человека, получившего повышение, установив индикаторную переменную в 1. Затем мы можем предсказать вероятность прибыли человека, когда ему/ей не дается повышение. продвижения, установив переменную индикатора в 0.

Обратите внимание, что одна и та же модель используется для прогнозирования вероятности получения прибыли в рекламные и нерекламные периоды. Во время процедуры изменяются только входные данные, в частности переменная индикатора.

Если разница в вероятности (также известная как эффект подъема) более значительна, чем 0, мы отправим рекламную акцию. Это связано с тем, что человек с большей вероятностью получит прибыль, если получит продвижение по службе, а не отсутствие продвижения по службе.

Эффект повышения = вероятность получения прибыли при проведении акции — вероятность получения прибыли при отсутствии акции.

В качестве альтернативы регрессионные модели можно использовать для моделирования ожидаемой прибыли от рекламных мероприятий по сравнению с нерекламными мероприятиями. Это потенциально может сказать нам, насколько больше прибыли мы можем получить, отправив предложение физическому лицу.

Для этого проекта я решил сосредоточиться на моделировании вероятности получения прибыли, а не ожидаемой прибыли.

Кроме того, для этой задачи могут быть реализованы другие типы моделей поднятия.

Одним из таких примеров будет использование двух отдельных моделей для измерения эффекта подъема. В этом сценарии одна модель будет обучаться на рекламных данных, а другая — на нерекламных данных. Разница между предсказанными вероятностями двух моделей укажет на эффект подъема.

Подробнее о других моделях подъема читайте в этой статье.

IX. Дополнительные данные и корректировки модели

Прежде чем мы обсудим результаты моделирования, сделаем пару заключительных корректировок.

Использование отдельных моделей для каждого типа предложения

Первоначальные эксперименты с использованием единой модели для всех типов предложений привели к неудовлетворительным результатам. Это может быть связано с тем, что количество прибыльных экземпляров значительно различается для разных типов предложений. Следовательно, положительные экземпляры некоторых типов предложений могут иметь больший вес, чем другие типы предложений.

Также существовала вероятность того, что разные типы предложений имеют общие минимальные стандартные сигналы, которые можно использовать для определения выгодных предложений.

Поэтому было принято решение создать отдельные модели для каждого типа предложений.

Каждая модель будет фокусироваться на моделировании различий в рекламных и нерекламных расходах для одного типа предложения.

Использование подмножества ежемесячных данных

Кроме того, для обучения каждой модели использовалось сокращенное подмножество ежемесячных данных.

Основная цель будет заключаться в том, чтобы смоделировать транзакционное поведение людей в течение месяцев, когда они получали предложения, и определить, кто из них, скорее всего, потратит больше денег в периоды рекламных акций, а не в периоды, когда они не рекламируются.

В набор данных будут включены только месяцы, в которые было отправлено соответствующее предложение. Кроме того, мы будем включать только лиц, с которыми у нас были записи транзакций как для рекламных, так и для нерекламных ситуаций в течение этих месяцев.

Например, предположим, что мы работаем над моделью для предложения с идентификатором 0. Если человек с идентификатором 1 получил «предложение с идентификатором 0» в месяце 1, то рекламные и нерекламные расходы человека с идентификатором 1 в месяце 1 будут включены в набор данных. Если человек с идентификатором 2 не получил предложение с идентификатором 0 в месяце 1, то информация о человеке с идентификатором 2 (нерекламные записи транзакций) за месяц 1 не будет включена. Аналогичным образом, если человек с идентификатором 1 не получил предложение с идентификатором 0 в месяце 9, то информация о его/ее транзакции за этот месяц не будет использоваться.

Следовательно, каждое предложение будет иметь свое уникальное подмножество ежемесячных данных.

Взятие подмножества ежемесячных данных позволит нам точно сравнить различия в ежемесячных расходах между рекламными и нерекламными ситуациями для одних и тех же людей.

Кроме того, этот подход поможет гарантировать, что модель будет видеть одинаковое количество рекламных и нерекламных экспозиций каждый месяц. Это поможет снизить вероятность чрезмерной подгонки к конкретной экспозиции.

Дисбаланс в ярлыках

Как упоминалось ранее, существует дисбаланс в подсчете значений меток. Точки данных с большей вероятностью будут неприбыльными(метки прибыли равны 0), чем прибыльные (метки прибыли равны 1).

Если мы посмотрим на распределение меток has-profit среди рекламных акций, то увидим, что дисбаланс явно выражен по сравнению с нерекламными показами. Это особенно актуально для акций «идентификатор предложения 0» и «идентификатор предложения 3», которые имеют недостаточное количество прибыльных экземпляров. Напротив, точки данных без предложений имеют гораздо большее количество прибыльных случаев.

Следовательно, нам нужно будет устранить дисбаланс между ярлыками, чтобы они оставались согласованными между рекламными и нерекламными экспозициями.

Если дисбаланс оставить без внимания, модель будет иметь большую тенденцию прогнозировать 0 меток для рекламных акций, особенно в «идентификаторе предложения 0» и «предложение равно 3».

Техника передискретизации синтетического меньшинства, SMOTE, будет использоваться для передискретизации прибыльного класса. Другими словами, мы будем добавлять искусственно созданные экземпляры в человеко-месяцах с метками has_profit 1.

SMOTE позволяет нам создавать новые наблюдения с немного отличающимися значениями признаков от исходных наблюдений.

Чтобы создать новый образец, он возьмет точку данных из набора данных и выберет одного из k-ближайших соседей. Затем он возьмет вектор между выбранным соседом и текущей точкой данных и умножит этот вектор на случайное число, лежащее в диапазоне от 0 до 1. Наконец, он добавит результаты к текущей точке данных, чтобы создать новую выборку.

Часто это лучший подход, чем просто повторная выборка исходных данных, которая создаст слишком много дублированных точек данных и приведет к переобучению модели машинного обучения.

Поскольку избыточная выборка часто увеличивает полноту за счет точности, я решил использовать избыточную выборку только для рекламных точек данных. Это связано с тем, что нерекламные точки данных уже имеют более высокое отношение прибыли к некоммерческим меткам, чем рекламные точки данных.

Следовательно, путем избыточной выборки только рекламных точек данных соотношение прибыльных и некоммерческих этикеток в рекламных ситуациях будет приближаться к нерекламным ситуациям.

Наконец, передискретизация будет выполняться только для обучающих данных. Мы хотим, чтобы наши проверочные и тестовые данные имитировали реальное поведение клиентов в реальном мире. Только меньшинство клиентов, скорее всего, будет приносить фирме ежемесячную прибыль.

Масштабирование и уменьшение размерности

SMOTE лучше всего работает с непрерывными данными. Поскольку наши данные представляют собой смесь категориальных и непрерывных переменных, нам нужно будет преобразовать их в непрерывные переменные. Один из подходов будет заключаться в масштабировании набора данных и выполнении уменьшения размерности. Это создаст набор данных, состоящий только из непрерывных переменных.

Еще одним преимуществом уменьшения размерности является то, что большинство клиентов часто реагируют на один тип предложения в течение всего периода исследования. Клиенты могут получить несколько предложений, но большинство из них, как правило, действуют только в одном типе предложений. Следовательно, сумма исторических расходов для большинства типов предложений будет равна 0 для многих людей.

Поскольку мы разработали новые функции на основе исторического поведения расходов для каждого типа предложений, большая часть этих разработанных функций будет разреженной (0 для многих функций). Следовательно, уменьшение размерности поможет уменьшить разреженность набора данных.

Нормализация и уменьшение размерности проводились для каждого типа предложений отдельно. Стандартное масштабирование использовалось для нормализации всех переменных до среднего значения 0 и стандартного отклонения 1, а анализ основных компонентов использовался для уменьшения размерности набора данных.

Для большинства типов предложений от 40 до 50 параметров было достаточно, чтобы зафиксировать большую часть дисперсии в наборе данных. Первоначальное количество признаков составляло примерно 200, что указывает на высокую степень разреженности набора данных.

Показатель

Эффективность нашей стратегии продвижения будет определяться с помощью чистого дополнительного дохода (NIR), где:

NIR = Доход от рекламы – Стоимость рекламы – Доход, не связанный с рекламой

что также может быть выражено как

NIR = рекламная прибыль — нерекламная прибыль

NIR будет рассчитываться на основе лиц, которые должны получить предложение в соответствии с нашей стратегией. Другими словами, это люди с положительными значениями подъема.

Таким образом, NIR измеряет, сколько заработано (или потеряно), рассылая поощрение этим людям.

Например, предположим, что мы рассчитываем NIR для 19-го месяца. Предположим, наша рекламная стратегия предсказала, что клиенты с идентификатором 15 и 5550 будут иметь положительные значения прироста и должны получить продвижение. Фактическая запись транзакции для этих лиц в течение 19-го месяца выглядит следующим образом:

Идентификатор предложения 0 — это акция со скидкой 10/20/5. Предложение с идентификатором 10 отслеживает расходы, не связанные с рекламой.

NIR будет рассчитываться следующим образом:

NIR = (0 долл. США + 23,20 долл. США) – (8,69 долл. США + 16,76 долл. США) = -2,25 долл. США

Поиск по сетке

Классификатор XGBoost будет использоваться для моделирования вероятности получения прибыли, а ранняя остановка была использована для уменьшения переобучения моделей. Площадь под кривыми точности-припоминания использовалась для принятия решения о том, когда следует прекратить тренировку, а не площадь под кривой ROC. Такой выбор был сделан из-за несбалансированности классов в наборе данных, а это означало, что использование площади под ROC-кривой могло привести к чрезмерно оптимистичной картине.

Для определения оптимальной стратегии продвижения был проведен поиск по сетке по следующим параметрам: коэффициент апсэмплинга, максимальная глубина дерева и минимальный вес дочернего элемента. Поиск по сетке будет оценивать валидацию и тестировать NIR для каждого набора параметров.

Коэффициент передискретизации определяет, насколько мы должны передискретизировать экземпляры прибыли (has_profit, метка 1) для точек рекламных данных. Поддержание равного баланса в прибыльных и некоммерческих случаях между рекламными и нерекламными ситуациями не всегда приводило к оптимальным результатам. Следовательно, возникла необходимость изменить коэффициент повышения дискретизации.

Чем больше максимальная глубина дерева и меньше минимальный вес дочернего элемента, тем выше мощность моделирования. Это означает, что дерево более способно к изучению отношений, характерных для конкретной выборки. С другой стороны, меньшие максимальные глубины дерева и более высокие минимальные веса дочерних элементов сделают модель более консервативной и лучше контролируют переоснащение.

Поскольку предложения были отправлены в нерегулярные месяцы, тестовый месяц каждого предложения будет другим. Как правило, последний месяц, в течение которого было отправлено предложение, будет использоваться в качестве тестового месяца, а предпоследний месяц — в качестве месяца проверки. Наконец, остальные месяцы будут отнесены к обучающим данным. В большинстве случаев для каждого предложения было доступно примерно 3 или 4 месяца обучения.

Для этого проекта выбранная рекламная стратегия не обязательно была той, которая обеспечила наилучшую валидацию NIR. Было замечено, что самые эффективные стратегии в течение месяца проверки могут не давать положительных NIR в течение месяца тестирования.

Следовательно, выбранной стратегией будет та, которая дает NIR с самой высокой проверкой, но при этом дает положительный результат теста NIR.

Если не было найдено ни одной стратегии, дающей положительный NIR как в течение месяцев валидации, так и в течение месяцев тестирования, будет указана стратегия, которая дала самый высокий NIR валидации.

Обычно не идеально использовать результаты тестирования для настройки модели. Однако у нас недостаточно месячных данных, чтобы увеличить количество месяцев, используемых для периодов проверки и тестирования. Если бы было доступно больше данных, мы могли бы выделить дополнительные месяцы для периодов проверки и тестирования. Это может привести к большей согласованности результатов и позволит нам избежать использования результатов тестирования для настройки нашей стратегии.

Следовательно, этот проект будет служить только для демонстрации жизнеспособности прибыльной рекламной стратегии. Если мы хотим получить надежную и прибыльную стратегию продвижения, потребуются дальнейшие уточнения.

Как мы вскоре увидим, независимо от выбранных нами стратегий, модели подъема обычно давали результаты намного лучше, чем те, которые были первоначально достигнуты в эксперименте.

Х. Результаты

Теперь мы сравним результаты, полученные с помощью базовых стратегий и наших моделей подъема.

Базовая стратегия будет исходной стратегией, используемой в ходе исследования. Другими словами, все, кто получил предложение во время фактического эксперимента, получат предложение в базовой стратегии.

Целью нашей модели было бы выявить меньшую подгруппу этих людей, которые, вероятно, потратят больше, получив продвижение по службе, а не когда они не получили повышения. Другими словами, модель Uplift будет отправлять рекламные акции только лицам с положительными значениями Uplift.

В идеале Starbucks может максимизировать свою прибыль, ограничивая рекламные акции только для самых перспективных клиентов.

Скидка 20.10.5 (идентификатор предложения 0)

Идентификатор предложения 0 — это акция со скидкой со сложностью 20 долларов США, вознаграждением 5 долларов США и сроком действия 10 дней.

Базовая стратегия ~ NIR проверки: 108,70 долл. США, NIR тестирования: -4 889,48 долл. США

Модель подъема ~ Валидация NIR: 72,83 долл. США, Тестовая NIR: -2 163,47 долл. США

Скидка 7/7/3 (идентификатор предложения 1)

Идентификатор предложения 1 — это рекламная акция со скидкой со сложностью 7 долларов США, вознаграждением 3 доллара США и сроком действия 7 дней.

Базовая стратегия ~ NIR проверки: 185,14 долл. США, NIR тестирования: -4 732,18 долл. США

Модель подъема ~ Валидация NIR: 60,41 долл. США, Тестовая NIR: 4,61 долл. США

Скидка 10 июля 2 (идентификатор предложения 2)

Идентификатор предложения 2 — это акция со скидкой со сложностью в 10 долларов и вознаграждением в размере 2 долларов. Предложение имеет срок действия 7 дней.

Базовая стратегия ~ NIR проверки: 65,88 долл. США, NIR тестирования: -5 519,62 долл. США

Модель подъема ~ NIR проверки: 12,40 долл. США, тестовая NIR: 3,17 долл. США

Информационное 4/0/0 (идентификатор предложения 3)

Идентификатор предложения 3 — это информационное продвижение без затруднений и без вознаграждения. Имеет срок действия 4 дня. По мнению Starbucks, это означает, что клиент «почувствует» его воздействие в течение 4 дней. Вероятное объяснение заключается в том, что покупатель сможет просматривать предложение в приложении в течение 4 дней.

Базовая стратегия ~ Валидация NIR: -4 193,67 долл. США, Тестовая NIR: -8 754,95 долл. США

Модель подъема ~ Валидация NIR: 29,39 долл. США, Тестовая NIR: -34,26 долл. США

BOGO 5/10/10 (идентификатор предложения 4)

Идентификатор предложения 4 — это рекламная акция «купи один — получи один бесплатно» со сложностью 10 долларов и вознаграждением 10 долларов. Имеет срок действия 5 дней.

Базовая стратегия ~ Валидация NIR: -4 634,69 долл. США, Тестовая NIR: -7 027,36 долл. США

Модель подъема ~ Валидация NIR: 12,39 долл. США, Тестовая NIR: 10,20 долл. США

Информация 3/0/0 (идентификатор предложения 5)

ID предложения 5 — это информационная акция со сроком действия 3 дня.

Вот результаты для моделей:

Базовая стратегия ~ Валидация NIR: -5 188,06 долларов США, тестовая NIR: -6 707,87 долларов США.

Модель подъема ~ Валидация NIR: 2,19 долл. США, Тестовая NIR: -130,91 долл. США

BOGO 7/5/5 (идентификатор предложения 6)

Идентификатор предложения 6 — это промо-акция по принципу «купи один — получи один бесплатно» со сложностью 5 долларов и вознаграждением 5 долларов. Он действителен в течение 7 дней.

Вот результаты для моделей:

Базовая стратегия ~ Валидация NIR: 121,58 долл. США, Тестовая NIR: -6 542,62 долл. США

Модель подъема ~ Валидация NIR: 21,81 долл. США, Тестовая NIR: 10,15 долл. США

BOGO 7/10/10 (идентификатор предложения 7)

Предложение 7 — это промо-акция по принципу «купи один — получи один бесплатно» со сложностью 10 долларов и вознаграждением 10 долларов. Предложение с идентификатором 7 аналогично предложению с идентификатором 4, за исключением того, что срок его действия составляет 7 дней.

Базовая стратегия ~ NIR проверки: 65,13 долл. США, NIR тестирования: -6 207,28 долл. США

Модель подъема ~ Валидация NIR: 24,29 долл. США, Тестовая NIR: 0,73 долл. США

BOGO 5/5/5 (идентификатор предложения 8)

Номер предложения 8 — это рекламная акция «купи один — получи один бесплатно» со сложностью 5 долларов и вознаграждением 5 долларов. Он идентичен предложению с идентификатором 6, за исключением более короткого периода действия, всего 5 дней.

Базовая стратегия ~ Валидация NIR: -5 779,91 долларов США, тестовая NIR: -7 508,97 долларов США.

Модель подъема ~ Валидация NIR: 481,78 долл. США, Тестовая NIR: -786,3 долл. США

Скидка 10/10/2 (идентификатор предложения 9)

ID предложения 9 — последняя акция, которую мы обсудим. Это акция со скидкой со сложностью 10 долларов, вознаграждением 2 доллара и сроком действия 10 дней. Это похоже на предложение с идентификатором 2, за исключением того, что оно имеет более длительный срок действия 10 дней по сравнению с 7 днями для предложения с идентификатором 2.

Базовая стратегия ~ NIR проверки: 104,30 долл. США, NIR тестирования: -5 006,65 долл. США

Модель подъема ~ Валидация NIR: 51,87 долл. США, Тестовая NIR: 3,02 долл. США

Во всех случаях нам удалось добиться значительных улучшений по сравнению с NIR тестовых месяцев базовых стратегий.

Для 6 из 10 типов продвижения мы смогли найти стратегии, которые были прибыльными в течение месяца проверки и тестирования.

4 типа рекламных акций, которые мы не смогли провести: скидка 10/20/5, информационная 4/0/0, информационная 3/0/0 и BOGO 5/5/5.

Есть два возможных объяснения плохой работы наших стратегий на информационных предложениях.

Во-первых, поскольку информационные предложения не имеют вознаграждения, их эффективность ограничена. Таким образом, их влияние на расходы клиентов незначительно.

В качестве альтернативы, их относительно короткий срок действия, а также тот факт, что клиенты не заинтересованы в том, чтобы «завершать» их быстро, означает, что реальное влияние этих рекламных акций будет ощущаться позже. Клиенты могут отвечать на эти рекламные акции, но только после истечения срока действия рекламных акций.

Кроме того, плохая эффективность наших стратегий для акции со скидкой 10/20/5 предполагает, что сложность акции (20 долларов США) может быть слишком высокой, чтобы стимулировать содержательные ответы клиентов.

Несмотря на то, что рекламные стратегии для 4 рекламных акций, как упоминалось ранее, не были прибыльными, они по-прежнему представляют собой значительные улучшения по сравнению с базовыми стратегиями. Следовательно, их внедрение повысит прибыль Starbucks.

В нескольких рекламных акциях наши стратегии модели повышения показали несколько более низкие NIR в месяцы проверки, чем то, что было первоначально достигнуто в эксперименте. Тем не менее, эти стратегии позволили значительно улучшить NIR тестовых месяцев. Следовательно, компромисс был приемлемым.

XI. Заключение

Ответ на наш вопрос

Теперь вернемся к нашему вопросу в начале:

Можем ли мы увеличить прибыль Starbucks, приняв более избирательную рекламную стратегию?

Мы показали, что можно повысить эффективность исходной стратегии продвижения и добиться большей отдачи. Прибыльные стратегии были найдены для 6 из 10 акций, а также нам удалось существенно сократить убытки в остальных 4 акциях.

Однако наш нынешний подход не дает положительных NIR для всех предложений. Есть также вопросы относительно согласованности результатов. Дальнейшие улучшения должны быть сделаны для получения надежных и прибыльных стратегий. Как отмечалось ранее, модели подъема могут быть сложными в реализации.

Ключевой вывод из этого эксперимента заключается в том, что рекламные акции не приносят значительно большей прибыли в краткосрочной перспективе. Большинство клиентов, как правило, лояльны и часто готовы покупать товары независимо от наличия акций.

Следовательно, нам нужно быть более избирательными при определении лиц, которым нужно рассылать рекламные объявления. В противном случае мы можем негативно повлиять на прибыль компании.

Возможные улучшения

Мы отметили, что стратегии, дающие самые высокие NIR проверки, не давали положительных NIR тестов. Несоответствия между результатами проверки и тестирования предполагают, что либо сигналы не были сильными, либо непостоянными в разные месяцы.

Учитывая, что на предложения откликнулась лишь небольшая часть клиентов, у нас не было большого количества данных о транзакциях для работы. Кроме того, были доступны только 4 демографических атрибута. Следовательно, получение большего количества данных о транзакциях и демографических данных может помочь улучшить сигнал.

В качестве альтернативы, мы можем улучшить наши модели повышения во многих отношениях:

1. Отправляйте рекламные акции только тем, у кого значения прироста выше определенного процентиля, а не только тем, у кого положительный прирост.

2. Я использую регрессионные модели для моделирования количества прибыли в рекламных и нерекламных ситуациях.

3. Попробуйте другие модели подъема, такие как подход с двумя моделями, подход с четырьмя квадрантами и т. д.

Опробование всех этих альтернативных подходов займет относительно много времени; поэтому я не исследовал их для этого проекта.

Кроме того, существует также вероятность того, что рассылка этих рекламных акций может привести к снижению прибыли в краткосрочной перспективе из-за понесенных затрат. Тем не менее, они могут повысить лояльность клиентов и побудить их тратить больше денег на будущие транзакции.

Наш текущий подход не моделирует долгосрочное влияние этих рекламных акций. Следовательно, альтернативным подходом к этой проблеме будет разработка стратегии, максимизирующей будущие прибыли, а не краткосрочные. В этом сценарии наша цель будет состоять в том, чтобы выявить людей, которые, вероятно, потратят больше денег в ближайшие месяцы после получения повышения.

Код, сопровождающий эту статью, можно найти здесь.

Спасибо, что прочитали эту статью! Если у вас есть какие-либо мысли или отзывы, оставьте комментарий ниже или отправьте мне электронное письмо по адресу [email protected]. Буду рад услышать от вас.