Причинный вывод используется, чтобы определить, является ли действие на выбранную группу населения эффективным и насколько. Чрезвычайно полезно оценить средний лечебный эффект кампании. Для этого вам необходимо сравнить разницу результатов в группе лечения и в контрольной группе.

В этом посте мы объясняем методы, которые можно использовать для оценки действия, даже если подходящей контрольной группы не существует. Мы объясним, как можно вывести и проверить причинно-следственную связь и сколько мы можем сделать вывод из данных.

Этот пост основан на случае, описанном ранее в части 1 этой серии.

Краткое резюме

Как упоминалось в части 1 этой серии, мы понятия не имели, были ли кампании направлены на сокращение оттока клиентов, а также не знали, как происходит назначение клиентов в лечебно-контрольную группу. Кроме того, уже созданные контрольные группы были намного меньше по размеру, чем связанные с ними лечебные группы, и не были репрезентативными для правильной оценки эффективности кампании. Вот тут-то и возникла необходимость создания синтетических контрольных групп. Цель состоит в том, чтобы найти популяцию контрольной группы с такими же характеристиками (аналогичным распределением признаков), что и популяция экспериментальной группы.

Действительно, тогда эффект кампании контролируется для других факторов, которые могли повлиять на результат, и может быть рассчитан эффект лечения.

Методы синтетической контрольной группы

Мы оценили три метода: оценка склонности, грубое точное сопоставление (CEM) и регрессия OLS.

Сопоставление показателей склонности сначала оценивает показатели склонности с помощью логистической регрессии, дискриминантного анализа или других подобных методов. Показатель склонности отражает вероятность получения лечения на основе наблюдаемых ковариат (переменных). Затем формируют пары леченных и нелеченных субъектов таким образом, чтобы подобранные пары имели одинаковые значения показателей склонности. Как следствие, нелеченые участники с ближайшей оценкой склонности будут сопоставлены с участником этой тестовой группы. Если бы лечение было назначено случайным образом, метод склонности привел бы к очень похожей оценке для всех записей. Тогда контрольной группой будет вся необработанная популяция.

Огрубленное точное сопоставление (CEM) сначала бинирует каждую переменную. Затем элемент будет представлен его сигнатурой корзины, которая будет использоваться для точного сопоставления других элементов с такой же сигнатурой корзины. Поскольку сигнатура бина может иметь несколько связанных обработанных и необработанных элементов, дисперсия в распределении должна быть нормализована с использованием весов CEM. Каждому участнику будет присвоен вес. Несопоставимым участникам будет присвоен вес 0 и, следовательно, они будут отброшены. Совпадающие элементы лечения будут иметь вес 1, а совпадающие необработанные элементы будут иметь вес выше 0.

Обычная регрессия наименьших квадратов (OLS) моделирует отношения между лечением и результатом в виде линейной модели и оценивает средний эффект лечения, находя коэффициент для переменной лечения. В этом случае ковариаты будут играть роль контроля других возможных факторов, которые могут повлиять на результат, снова предполагая линейную зависимость. Конечно, вы можете добавить к приведенному ниже уравнению термин взаимодействия между лечением и ковариатами, но мы сохранили этот подход простым.

Y=α+βX+γA+ϵ

Где α — постоянный член, β — коэффициент лечения, X — переменная лечения, A — ковариаты, включенные в модель (и γ — их коэффициенты), и последнее, но не менее важное — ϵ — член ошибки. Лечебный эффект будет давать β.

Предварительная обработка

Мы выполнили сокращение признаков, так как это дало нам более быстрый и стабильный процесс сопоставления. Еще одна причина, по которой мы сделали это, заключалась в том, что мы наблюдали, что при использовании всех функций как есть в CEM не было найдено совпадений, поскольку становится все труднее находить соответствующие шаблоны ячеек с растущим числом функций, особенно когда они редкие. Мы пробовали рекурсивное исключение признаков, выбор признаков на основе F-показателя между признаком и целевой переменной и PCA. Мы обнаружили, что PCA с 15 компонентами после масштабирования дает наилучшие результаты (некоторые эксперименты были проведены для сопоставления групп, и качество совпадений показало, что PCA дал лучшие оценки склонности и соответствия). PCA действительно уменьшает разреженность, масштабирует и при этом фиксирует соответствующую часть данных.

Впоследствии данные были разделены на группы обработки и остатка. Группа лечения состояла из всех клиентов, на которых в течение этого периода времени была нацелена эта кампания, а оставшаяся группа включала всех нецелевых клиентов. Поскольку группа лечения и оставшаяся часть все еще были в последовательном формате (каждый клиент имел запись за каждый месяц действия контракта), мы разделили их, чтобы уменьшить размер этих наборов данных и сделать процесс сопоставления более стабильным и быстрым. Таким образом, мы вернули группу лечения и остатка к одной записи для каждого клиента. Для лечебной группы мы взяли для каждого клиента ту запись, где проходила кампания. Для оставшейся группы мы случайным образом взяли образец для каждого клиента.

Группировка результатов

Затем мы предоставили эти 2 группы для сопоставления показателей склонности (с использованием библиотеки Pymatch) и CEM (с использованием библиотеки CEM). Сопоставление оценок склонности вернуло оценки склонности, в то время как CEM вернул веса CEM для каждого клиента. Основываясь на этом выводе, мы создали четыре разные группы (как описано в первом сообщении в блоге).

  1. Исследуемая группа = группа, на которую нацелена кампания и показатель склонности к которой выше 0,5, что означает, что население в этой группе имеет высокую склонность к нацеливанию (высокая вероятность оттока). Эквивалент CEM присваивает обработанным клиентам с весовым коэффициентом CEM, равным 1, этой группе. Это означает, что CEM выбрал этих клиентов, поскольку они нашли для них совпадение с одним или несколькими субъектами, не получавшими лечения.
  2. Случайная группа = группа, на которую нацелена кампания, но показатель склонности которой ниже 0,5, что означает, что у них была низкая вероятность стать таргетингом, но они все равно были таргетированы. Эквивалент CEM относит пролеченных клиентов с весовым коэффициентом CEM, равным 0, к этой группе, поскольку это означает, что CEM не смог найти для них надлежащего соответствия ни с одним из субъектов контрольной группы.
  3. Контрольная группа = группа, которая не была нацелена на кампанию, но имела показатель склонности выше 0,5, указывающий на то, что они действительно имели высокую вероятность быть нацеленными. Эквивалентом CEM для этой группы являются клиенты, которые не получали лечения, но были выбраны в соответствии с клиентами группы лечения и, следовательно, имеют вес выше 0.
  4. Другая группа = группа, которая не получала лечения и имела низкий показатель предрасположенности (ниже 0,5), что означает, что у них действительно не было высокой склонности к нацеливанию. Для CEM это означает, что необработанные участники не могли быть сопоставлены ни с одним из участников теста и, следовательно, получили вес 0.

Хороший, плохой, злой

Чтобы оценить соответствие показателей склонности, мы рассмотрели два графика: а именно, график распределения показателей склонности в экспериментальной и контрольной группах. Чем более несопоставимы эти распределения экспериментальной и контрольной групп, тем выше разделимость данных и тем лучше будут совпадения. Это указывает на то, что группа лечения имела определенные характеристики, которые могут быть идентифицированы алгоритмом, и что лечение не проводилось случайным образом. Во-вторых, мы будем отображать коэффициент оттока по группам в течение шести месяцев (это будет сделано и для CEM). Обратите внимание, что значение коэффициента оттока не является абсолютным, а отражает разницу между этим месяцем и предыдущим месяцем. Чтобы уточнить, уровень оттока — это процент новых оттоков из этой группы в этом месяце.

Просто отобразив эти 2 сюжета, мы уже сможем сделать много выводов о кампаниях. В следующем разделе мы более подробно рассмотрим статистические тесты, чтобы продемонстрировать и подтвердить значимость результатов.

Результаты, представленные на двух графиках выше (рис. 4), соответствуют ожиданиям. Отток действительно выше в экспериментальной и контрольной группе, что позволяет предположить, что кампания была нацелена на клиентов с высокой вероятностью оттока. Случайная группа также соответствует нашим ожиданиям, поскольку целевые клиенты не демонстрируют высоких показателей оттока, поэтому влияние кампании на процент оттока в этой группе кажется минимальным.

Преимущество построения графика оттока за шестимесячный период заключается в том, что теперь мы можем наблюдать, как долго кампания действовала. В этом случае мы могли видеть, что кампания дала значительный эффект, который длился два месяца. Затем показатели оттока снова сошлись примерно к третьему месяцу без какого-либо влияния на четвертый месяц.

Для CEM (рис. 5) интерпретация четырех групп (особенно случайной и «другой» группы) менее интуитивна, поскольку этот метод не возвращает оценки склонности, определяющие вероятность получения лечения. Следовательно, результаты могут сильно различаться по сравнению с методом склонности.

Поскольку интерпретация случайной и другой группы немного более непрозрачна, мы сосредоточимся на контрольной и экспериментальной группе. Как и в случае сопоставления показателей склонности, мы видим, что вероятность оттока в экспериментальной группе ниже, чем в контрольной группе, в течение первых двух месяцев. Таким образом, кампания действительно имела длительный эффект в течение двух месяцев.

Отныне мы будем называть эту кампанию хорошей кампанией.

Результаты не всегда так очевидны для различных кампаний. Глядя на другую кампанию (см. рис. 6), результаты уже более неоднозначны. Эта кампания будет называться плохой кампанией.

Приведенные выше результаты вызывают смешанные чувства, поскольку процент оттока в «другой» группе намного выше, чем в трех других группах. Однако, поскольку процент оттока в экспериментальной группе по сравнению с контрольной группой ниже, мы можем сказать, что кампания повлияла на отток.

Хотя уровень оттока определенно ниже в экспериментальной группе, пик оттока в «другой» группе, по-видимому, не указывает на то, что кампания нацелена на группу с самым высоким оттоком. Следовательно, становится трудно сделать вывод о том, была ли кампания нацелена на тех, кто часто уходит, и имела ли она эффект.

В следующем случае (рис. 7 и 8) мы наблюдаем, что распределения показателей склонности экспериментальной и контрольной групп почти полностью перекрываются. Это указывает на то, что разделение клиентов будет сопряжено с большими трудностями, что может быть связано с большим сходством между этими клиентами из тестовой и контрольной групп (следовательно, мы сделали вывод, что распределение в тестовую и контрольную группы было совершенно случайным).

Глядя на результат оценки склонности, кампания, похоже, оказала небольшое влияние как на экспериментальную, так и на случайную группу, поскольку можно заметить очень небольшую разницу в скорости оттока, причем этот эффект почти сразу исчезает после первого месяца. Тем не менее, CEM, кажется, не согласен с этим, поскольку между экспериментальной и контрольной группой можно обнаружить небольшую разницу в скорости оттока (фактически, у экспериментальной группы скорость оттока немного выше), см. рис. 8.

И эта кампания будет называться уродливой кампанией.

Рассчитать значимость

Чтобы оценить надежность предыдущих результатов, мы оценили причинно-следственный эффект и значимость кампании, используя обычную регрессию наименьших квадратов. В этом случае регрессор моделирует склонность к оттоку с учетом лечения и всех других ковариатов (показатели PCA).

Для каждой кампании мы представим оценки эффекта обработки (обратите внимание, что отрицательный эффект означает снижение оттока, что на самом деле является положительным результатом для бизнеса) и сводку стратификации. Последний будет распределять клиентов по разным слоям в зависимости от их оценки склонности. Это означает, что ковариаты экспериментальной и контрольной групп в пределах одной страты сбалансированы, что делает сравнение более содержательным. Это позволяет получить более детальное представление об эффектах лечения (необработанные различия исходов) в различных группах населения. В идеале мы хотели бы видеть, что корзины с низкой оценкой склонности, как правило, будут иметь меньший эффект кампании, чем корзины с более высокой склонностью. На самом деле, если кампания была направлена ​​на снижение оттока, корзины с более высокой склонностью к оттоку должны быть затронуты больше, чем корзины с низкой склонностью к оттоку.

Хорошее

И у нас хорошее начало. Результаты OLS хорошо согласуются с результатами, полученными при применении средства сопоставления показателей склонности и CEM. Как упоминалось ранее, кампания оказала значительное положительное влияние на отток клиентов в этот период (на что указывает P-значение). Резюме стратификации также прекрасно демонстрирует результаты, полученные ранее. Чем выше показатель склонности, тем больше влияние кампании на отток клиентов. Это подтверждает, что кампания в этот период была направлена ​​на снижение оттока и оказала положительное влияние.

Плохое

Во-первых, мы обнаруживаем, что кампания оказала статистически значимое положительное влияние на отток (снижение оттока), что отражается нулевым P-значением.

Однако результаты сводки по стратификации противоречат здравому смыслу, поскольку кампания не оказала никакого влияния на клиентов с высоким показателем предрасположенности. На самом деле, чем выше показатель склонности, тем меньше эффект от кампании. Это подтверждает идею о том, что кампания в этот период не была нацелена на группу с самым высоким оттоком. Мы также можем увидеть более высокий эффект в ячейках с более низким показателем склонности, что действительно согласуется с более высокими показателями оттока, которые мы наблюдали в «другой» группе после сопоставления показателей склонности. Таким образом, и здесь МНК подтверждает наши выводы, сделанные с помощью методов синтетической контрольной группы.

Гадкий

Здесь мы также можем провести параллель с результатами синтетических методов контрольной группы. Кампания действительно оказывает значительное положительное влияние на отток клиентов. Глядя на сводку по стратификации, мы не можем найти логического порядка в необработанной разнице результатов. Кампания, по-видимому, не оказывает большего влияния на население с более высокими показателями склонности по сравнению с влиянием на население с более низким показателем склонности. Это укрепляет нашу уверенность в том, что клиенты тестовой и контрольной групп очень похожи.

Таким образом, для всех трех периодов методы причинно-следственного вывода давали такие же результаты и результаты, как и результат сопоставления показателей склонности. Это укрепляет нашу веру в этот метод сопоставления.

Интересным следствием этих различных слоев является то, что мы могли бы использовать их в качестве простой основы для рекомендации действия. Например, мы могли бы нацеливаться на клиентов из последней пары сегментов (отсюда высокий показатель склонности и более высокая вероятность положительного отклика на кампанию).

Отказ от ответственности за причинно-следственный вывод

Обычно следует моделировать полную причинно-следственную цепочку со всеми переменными взаимодействиями и всеми возможными причинно-следственными отношениями. Однако, чтобы не усложнять подход, мы этого не сделали.

Другие методы

Здесь мы попробовали три разных метода для оценки среднего эффекта лечения, но, конечно, существует множество других методов, которые вы могли бы попробовать, такие как двойная робастная оценка, разность в разности, методы синтетического контроля или даже можно использовать алгоритмы машинного обучения для определения этот.

За более подробной информацией мы хотели бы обратиться к чрезвычайно полезному Причинно-следственному выводу для храбрых и верных.

Заключение

Подводя итог, мы попробовали три разных метода, чтобы оценить, действительно ли кампании были направлены на сокращение оттока и оказали ли они положительное влияние на отток. В конце концов, все три метода, казалось, более или менее совпали в отношении воздействия кампаний. К сожалению, не все результаты были такими хорошими, как ожидалось (например, плохая и уродливая кампания), и, следовательно, не все кампании были нацелены на сокращение оттока (или имели положительный эффект). Следовательно, это также будет иметь значение при обучении модели обучения с подкреплением. В идеале, обучаемый с подкреплением обнаружит, какие кампании на самом деле дали положительный эффект, и будет рекомендовать только их, отбрасывая более запутанные кампании, результаты которых были довольно неоднозначными.