Руководство для начинающих по моделированию подъема и оценке среднего эффекта лечения.

Введение: предсказание против причинного вывода

В последнее время появляется все больше дискуссий и бизнес-приложений, связанных с причинно-следственными выводами в области машинного обучения. Вообще говоря, машинное обучение хорошо справляется с проблемами прогнозирования. Например, недавний популярный ChatGPT, который по сути представляет собой ИИ для решения задач прогнозирования. На основе заданного вами вопроса он предсказывает ответ, который вы хотели бы знать.

Однако для решения многих бизнес-задач требуется причинно-следственная связь, например определение того, насколько рекламное предложение увеличит сумму покупки клиента. Эти типы проблем нельзя решить, просто загрузив все функции в модель. Они требуют экспериментального дизайна и понимания концепции контрфактического вывода.

Простой пример концепции моделирования подъема

Вот пример, часто используемый для объяснения причинно-следственной связи новичкам:

Представьте, что вы хотите рекламировать продукт и выяснить, на какую группу клиентов ориентироваться. У вас есть данные о прошлых конверсиях для двух групп, A и B. Кому вы должны рекламировать?

Как правило, если обе группы пользователей имеют одинаковое количество людей и тратят одинаковые суммы, лучше выбрать группу пользователей A, так как у нее более высокий коэффициент конверсии рекламы.

Однако, исходя из естественного коэффициента конверсии (вероятности покупки без рекламы), реклама на самом деле более эффективна для группы пользователей B.

Это означает, что, просто взглянув на «вероятность покупки после рекламы», мы не можем выделить следующие четыре типа клиентов:

Четыре типа клиентских сегментов

  • Убедительность: это люди, которые не будут покупать, не увидев рекламу, но купят, когда ее увидят. Это та аудитория, на которую больше всего нацелена наша реклама!
  • Конечно. Это люди, которые будут покупать независимо от того, увидят они рекламу или нет. Поэтому реклама в эту группу фактически пустая трата ресурсов.
  • Упущенные причины. Это люди, которые не будут покупать независимо от того, увидят они рекламу или нет. Их можно считать группой неактивных клиентов, и простая реклама для них без других более эффективных способов их стимуляции также будет расточительством.
  • Спящие собаки. Эти люди немного другие. Они покупают, когда не видят рекламу, но не покупают, когда ее видят. Следовательно, реклама для этих людей на самом деле будет иметь негативный эффект.

В группе клиентов А может быть больше «Конечно», которые сделают покупку даже без рекламы. Это означает, что реклама теряется. С другой стороны, в группе клиентов Б может быть больше «Убедительных» клиентов, на которых реклама может повлиять с большей вероятностью.

Модель отклика по сравнению с моделью подъема

С точки зрения машинного обучения реклама — это вмешательство или лечение, а количество покупок — это реакция. Этот подход, который смешивает четыре группы клиентов и рассматривает только отклик (т. е. уровень покупок) с вмешательством (т. е. предоставлением рекламы), называется моделью отклика. При этом учитывается только уровень покупок клиентов, которые получили рекламную рассылку.

«Модель подъема» измеряет, насколько меняется реакция человека, когда он подвергается вмешательству, по сравнению с тем, когда он не подвергается воздействию. Разница в реакции называется «причинным эффектом» вмешательства. Например, модель повышения может измерить, насколько реклама влияет на скорость покупки по сравнению с отсутствием рекламы.

Вышеприведенная математика говорит о большой идее причинно-следственного вывода, называемой «контрфактический вывод». Мы называем это «контрфактический вывод», потому что в любой момент «один и тот же человек» либо видел рекламу, либо не видел ее, и мы можем видеть только один из них. Модель Uplift использует машинное обучение и экспериментальный дизайн, чтобы попытаться выяснить, что произошло бы, если бы человек увидел или не увидел рекламу.

Реальное использование моделирования подъема

В этой статье модель поднятия поясняется только концептуально. В последующих статьях будет рассказано, как применять модель подъема. Чтобы узнать, как модель Uplift используется командой Line на Тайване и Uber, ознакомьтесь со следующими ресурсами:

  • Исследователь данных Uber объясняет фундаментальные концепции и практическое использование «моделирования подъема»:
  • Line использует модели повышения для определения аудитории, которая лучше реагирует на рекламу (на китайском языке).


Этот раздел посвящен книге под названием Причинно-следственный вывод для храбрых и верных. Он был написан Матеусом Факуром, штатным специалистом по данным в Nubank в Бразилии. Книга проста для понимания и содержит много мемов. Я рекомендую его всем, кто хочет узнать о причинно-следственных связях. Эта статья и последующие статьи на самом деле являются моими заметками по главам из книги:

  • Эта статья:основные понятия причинно-следственной связи
  • вторая статья: рандомизированные испытания, доверительные интервалы и модели причинно-следственных связей.
  • 3-я статья:Показатели склонности и оценка с двойной надежностью
  • 4-я статья:Мета-учащиеся: ученики уровня S, ученики T-класса, ученики X-класса
  • Статья 5:Непредвзятое/ортогональное машинное обучение или R-learner

Понимание причинно-следственной связи

Если вы знакомы с регрессионными моделями, вы, вероятно, слышали фразу «корреляция не означает причинно-следственную связь». Эта статья объяснит почему и покажет, как превратить корреляцию в причинно-следственную связь.

Математические символы потенциального результата

Представление лечения или вмешательства для блока i выглядит следующим образом:

Теперь давайте поговорим о «потенциальном результате». Это может быть немного сложно понять, поэтому не торопитесь. Представьте, что у нас есть группа вещей, которые мы хотим изучить. Кто-то из них будет лечиться, а кто-то нет. Мы можем только видеть, что происходит с каждой вещью при лечении или без лечения. Но мы также хотим знать, что произошло бы, если бы было наоборот. Это то, что мы называем «потенциальным исходом». На самом деле мы не можем этого увидеть, потому что этого не было, но об этом все равно важно думать.

Например, когда вы расстраиваетесь из-за того, что приняли решение А в прошлом Ti=1, вы можете представить, что произошло бы, если бы вы не приняли это решение, что является потенциальным исходом Y0i. С другой стороны, если вы расстраиваетесь из-за того, что не воспользовались возможностью B Ti=0, вы можете представить себе, что произошло бы, если бы вы воспользовались этой возможностью, что является потенциальным исходом Y1i.

Причинный эффект

Причинное воздействие можно разделить на следующие виды:

Индивидуальный эффект лечения

Эффект индивидуального лечения относится к использованию концепции потенциального результата для представления:

Из предыдущего объяснения мы можем понять, что на самом деле мы можем наблюдать только одно из двух. Этот пример используется исключительно для иллюстрации концепции причинно-следственных связей, также известной как «контрфактуальная».

Средний эффект лечения (ATE)

Средний причинный эффект при рассмотрении группы в целом называется средним лечебным эффектом (ATE):

Средний эффект лечения на пролеченных (ATT)

Еще одна мера, похожая на ATE, но ориентированная только на пролеченную группу:

Условный средний лечебный эффект (CATE)

Этот тип причинного эффекта относится к среднему эффекту лечения среди людей со схожими характеристиками после учета различных особенностей. Например, если мы хотим получить персонализированную рекламу, мы хотим знать, для каких типов людей реклама более эффективна (т. рекламные ресурсы. Математическая формула CATE выглядит следующим образом:

Когда лечение является бинарной переменной:

Когда лечение является непрерывной переменной:

Этот тип причинного эффекта тесно связан с развитием машинного обучения в области причинного вывода. Целью многих исследований и приложений является использование мощной прогностической способности машинного обучения для оценки CATE.

Ассоциация, причинность и предвзятость

Ассоциацию можно понимать как степень изменения Y в среднем при изменении T. Математически это представляется следующим образом:

Обратите внимание, что здесь $Y$ представляет только наблюдаемую часть (мы наблюдаем Y1 при обработке и Y0 при отсутствии обработки), поэтому мы можем преобразовать ее следующим образом:

Затем нам нужно использовать некоторые приемы, чтобы ввести понятие контрфактуалов, добавляя E[Y0|T=1] и затем вычитая E[Y0|T=1]:

Переупорядочивая последовательность, получаем:

Наконец, после слияния членов мы получаем следующее:

Из приведенных выше рассуждений видно, что «ассоциация» на самом деле эквивалентна «причинности» плюс термин «предвзятость». Почему это называется предвзятостью? Сначала необходимо понять E[Y0|T=1], который является результатом «контрфактуального», представляющего состояние пролеченного населения, «если бы они не лечились», в то время как E [Y0|T=0] представляет состояние нелеченной популяции. Разница между этими двумя представляет собой то, что существуют различия между лечеными и нелеченными популяциями, которые уже существуют до лечения.

Например, если мы наблюдаем, что в городах с более сильными полицейскими силами выше уровень преступности, значит ли это, что большее количество полицейских приводит к большему количеству преступлений? Независимо от возможности сговора между полицией и преступниками, причина, по которой мы наблюдаем это явление, вероятно, связана с тем фактом, что в городах с более сильными полицейскими силами уже был более высокий уровень преступности до прибытия полиции. Это приводит к предвзятость, когда мы пытаемся сделать причинно-следственные утверждения на основе наблюдаемых корреляций, что приводит к противоположному выводу.

И наоборот, если мы знаем, что смещения не существует, то есть E[Y0|T=1] — E[Y0|T=0] = 0, то мы можем получить:

На самом деле, если смещения нет, это означает, что леченная группа и нелеченная группа очень похожи, и их различия заключаются только в том, лечатся они или нет (т. е. сам Т). Следовательно, причинно-следственный эффект в двух группах также будет очень схожим. Следовательно, при выполнении этого условия можно получить: E[Y1 — Y0|T=1] = E[Y1 — Y0|T=0], другими словами:

Заключение

В этой статье сначала кратко описаны различия между моделями отклика и моделями подъема, а также представлена ​​концепция контрфактуальности и то, почему она связана с причинно-следственными эффектами. Затем были кратко представлены различные термины причинно-следственных связей и математические обозначения, за которыми последовало объяснение взаимосвязей между ассоциацией, причинно-следственной связью и предвзятостью. Было объяснено, при каких условиях корреляционная связь может трансформироваться в причинно-следственную связь.

В будущем я продолжу организовывать соответствующее содержание книги в статьи на Medium. Вы можете подписаться на меня и подбодрить меня, аплодируя моим постам!

Если есть какие-либо ошибки или области для обсуждения, пожалуйста, свяжитесь со мной. Вот мой LinkedIn:

https://www.linkedin.com/in/pingchienlu/

Ссылки

Основная ссылка на этот пост:



Другие статьи Medium о модели подъема:



Причинно-следственная связь с DoWhy: