Если вы читаете этот блог, я полагаю, что вы уже знакомы с линейной регрессией. В статистике линейная регрессия – это линейный подход к моделированию связи между скалярным откликом и одной или несколькими независимыми переменными (также известными как зависимые и независимые переменные). Дополнительную информацию см. в вики.

Прогнозируемые значения параметров сильно зависят от наблюдаемых данных. Некоторые переменные влияют как на зависимые, так и на независимые переменные. Рассмотрим пример: вы хотите измерить влияние продаж мороженого на атаки акул. Наблюдаемые данные показывают сильную корреляцию между продажами мороженого и атаками акул, но мы знаем, что это не так. Может случиться так, что высокая температура (вмешивающийся фактор) заставляет больше людей посещать пляж, что увеличивает продажи мороженого, а также количество нападений акул.

Таким образом, смешанная информация также необходима для подгонки регрессии. Достаточно ли вмешивающихся данных для измерения истинного влияния независимых переменных? Не совсем так. Наблюдение за вмешивающимися факторами не означает, что вы решили проблему предвзятости. Рассмотрим пример с туфлями-шпильками из блога Causal inference. Автор попытался измерить влияние сна в обуви на пробуждение с головной болью. Похоже, что большинство людей, просыпающихся с головной болью, прошлой ночью спали в обуви. С другой стороны, для людей, которые спали без обуви, данные редко присутствуют. Этот дисбаланс в наблюдаемых данных приводит к систематической ошибке в оценке параметров. Также не всегда возможно получить сбалансированные данные, особенно в сфере здравоохранения. Например, мы не можем попросить людей курить, чтобы измерить влияние курения на рак легких.

На этом фоне давайте более формально изучим эффект вмешивающихся факторов. Мы изучим влияние искажающих факторов при оценке параметров, а также поговорим о надежных методах обучения со смещенными наблюдаемыми данными в случае линейной регрессии. Рассмотрим линейную причинно-следственную модель, как показано на рисунке 1а, также представленную следующим образом:

Y = a + b*X + c1*Z1 + c2*Z2 + d*U, …(1)

где X= 1 или 0; Z1 и Z2 являются искажающими факторами, коррелирующими с X. Случайная ошибка U=N(0,1) не зависит от X, Z1 и Z2. Модель выбора,

X = (e + f1*Z1 + f2*Z2 + V) > 0, …(2)

где V=N(0,1). Здесь a, b, c1, c2, d, e, f1 и f2 — параметры. По построению U,V и Z=(Z1, Z2) все независимы, а Z является двумерным нормальным. Наблюдаемыми являются (X, Z, Y).

Нас интересует беспристрастная оценка параметра b. Это может быть достигнуто только тогда, когда X не смещается с Z, т. е. связь от Z к X заблокирована или математически P(X|Z)=P(X). Одно из самых простых решений — случайно выбрать значение X независимо от Z. Этот метод известен как рандомизированное контрольное исследование (РКИ). RCT предполагает ковариативный баланс, который также подразумевает наличие причинно-следственной связи. Интуитивно на рис. 1 очень легко визуализировать, что когда X становится независимым от Z, можно измерить истинное влияние X на Y. Доказательство выходит за рамки этого блока, но всегда можно обратиться к этому видео для получения более подробной информации. .

Как показано в пункте 3, РКИ не всегда осуществима. Таким образом, мы не можем напрямую сделать X независимым от Z. Но мы по-прежнему можем заблокировать путь Z → X, взвесив совокупность на величину, обратную P(X|Z). поэтому P(X|Z) станет равным 1, независимому от Z. Этот метод известен как обратное взвешивание вероятностей. P(X|Z) называется показателем склонности. Идею этого механизма взвешивания можно сравнить с проблемой классификации с несбалансированным набором данных. Чтобы преодолеть доминирование класса большинства, мы делаем избыточную выборку класса меньшинства или придаем больший вес классу меньшинства. Точно так же P(X=1|Z) можно рассматривать как класс большинства, тогда P(X=0|Z) станет классом меньшинства, и мы присваиваем обратную вероятность веса к наблюдаемым данным. Таким образом, после взвешивания P(X=0|Z) будет равно P(X=1|Z), т. е. P(X=0|Z)=P(X=1|Z)=1.

Теперь все готово для начала моделирования. Обратите внимание, что здесь я привожу результаты этой статьи. Вот детали моделирования из статьи. Скоро предоставлю мой код и расширенные результаты. Пусть p — оценочная вероятность P[X=1|Z]. Таким образом, для образцов X=1 вес w=1/p и для образцов X=0 вес w=1/( 1−п). Для простоты положим a=b=c1=d=1 и c2=2 в уравнения (1). Чтобы сохранить изменчивость весов в определенных пределах, мы делаем e=0,5, f1=0,25 и f2=0,75 в уравнении (2). Мы устанавливаем var(Z1)=2, var(Z2)=1, cov(Z1, Z2)=1, E(Z1)=0,5 и E(Z2)=1.

Мы запускаем регрессии Y на X и Z, невзвешенные и взвешенные, получая оценки для b. Мы также проводим регрессию Y для X и Z1. Наконец, мы запускаем простую регрессию Y на X.

Моделирование повторяется 250 раз, и среднее значение оценки b показано на рис. 3 при различных условиях эксперимента. Истинное значение b равно 1. Было замечено, что при взвешенных настройках ошибка в оценке меньше, даже если вмешивающиеся факторы частично наблюдаются. Это очень полезный анализ, потому что в реальном мире невозможно увидеть все помехи. Всегда есть шанс иметь незамеченных мешающих. Даже в этой ситуации взвешенный механизм очень хорошо оценивает параметры. Мы определенно можем расширить эту идею в здравоохранении, например, понять влияние лечения на состояние, анализ симптомов, вызванных различными заболеваниями и т. д. Это темы для изучения в другом интересном блоге. Надеюсь, что этот блог даст вам хорошее понимание темы и мотивацию для изучения будущих доменов. Если у вас есть какие-либо сомнения, не стесняйтесь обращаться ко мне здесь.

Ссылки

  1. Взвешивание регрессий по показателям предрасположенности.
  2. Показатели склонности и обратное взвешивание вероятностей (IPW)