Статья 2. Борьба с мокрой рыбой причинности: причинно-следственные диаграммы и Do-оператор.

Причинно-следственный вывод — это область, которая быстро развивалась за последние пару десятилетий, особенно в области эпидемиологии и все чаще в области машинного обучения. Включение причинно-следственных связей улучшает переносимость модели и прогнозирует последствия вмешательств. Установить причинно-следственную связь сложно, но, тем не менее, это краеугольный камень научного метода, как обсуждалось в предыдущей статье. Причинные диаграммы и do-оператор, предмет этой статьи, вместе с do-исчислением, предметом следующей статьи, позволяют нам ясно выражать каузальные идеи, например, давая нам лучшее понимание смешивания. Они позволяют нам лучше схватиться с мокрой рыбой причинности, не давая ей ускользнуть из наших пальцев. Примечательно, что эти инструменты обеспечивают возможность оценки причинных эффектов от пассивных наблюдений за невозмущенными системами, а не наблюдения за эффектами экспериментальных вмешательств. Удивительно, но до-исчисление позволяет оценить причинно-следственное влияние вещей, которые нельзя наблюдать напрямую, подобно способности взвешивать рыбу по ряби, которую она оставляет на воде.

Причинно-следственные диаграммы

Первое новшество, представленное Джудеей Перл в Книге Почему, — это причинно-следственная диаграмма. Для тех, кто знаком с информатикой, это ориентированный граф, чаще всего ориентированный ациклический граф. На языке неспециалиста каждое наблюдение в системе представляется как точка на картинке (графике), со стрелками, соединяющими точки. Поскольку точки соединены стрелками, их обычно называют узлами на графике. Направление стрелки представляет собой направление причинно-следственной связи. Например, продажи шляп от солнца, которые растут по мере того, как погода становится более солнечной и покупатели становятся богаче (чем больше у них денег, тем больше шляп они покупают), можно представить, как показано на рис. 1, где стрелки показывают, что к чему приводит. Более общее представление будет таким, как на рис. 2.

Мне причинно-следственные диаграммы кажутся очень интуитивными и очевидными, но они не применялись учеными и статистиками в обычном порядке. Действительно, в «Книге почему» Джуда Перл прослеживает происхождение причинно-следственной диаграммы от публикаций Сьюэлла Райта в 1910-х и 1920-х годах, но предполагает, что сопротивление статистических ортодоксов изучению причинно-следственных связей привело к тому, что такие идеи не были приняты.

Перл утверждает, что причинно-следственная диаграмма позволяет кратко и ясно обобщить причинно-следственные предположения эксперимента или анализа. Ученые могут сделать вывод, исходя из мировоззрения, представленного на их причинной диаграмме, является ли причинно-следственная связь истинной или нет. Они могут ясно представить различные возможные объяснения наблюдаемых данных. Причинно-следственная диаграмма обобщает предположения, лежащие в основе модели, что позволяет проверить их с помощью аргументов и экспериментов. Как мы увидим ниже, причинно-следственная диаграмма позволяет четко обосновать, что следует рассматривать как искажающие факторы, расширяя обсуждение в Статье 1 этой серии.

Несмотря на то, что причинно-следственные диаграммы существуют уже много лет, по-прежнему публикуется много статистических анализов, в которых такая диаграмма отсутствует и где нет четкого обоснования того, какие переменные следует рассматривать как искажающие факторы. Более того, причинно-следственные диаграммы обеспечивают основу для оценки причинно-следственной связи различных частей системы, что позволяет сделать вывод о природе причинно-следственной связи, например об относительном вкладе генетической наследственности по сравнению с окружающей средой. Хотя эти оценки основаны на правильности причинно-следственной диаграммы.

Три простейшие причинно-следственные диаграммы представляют собой соединение коллайдера, показанное на рис. 2, вилочное соединение, показанное на рис. 4, и соединение цепи, рис. 5. Вилка — классический пример смешения, который мы видим в нашем примере, коррелирующем между способностями ребенка к чтению и его ростом, обсуждаемом в статье 1. В вилке причинно-следственные стрелки указывают в сторону от B, тогда как на рис. 2, коллайдер, они указывают на B. Как обсуждается в следующем разделе и в подписях к рис. 2, 3 и 4, контроль B в ответвлении устраняет его смешанное влияние на A и C, но контроль B в коллайдере вводит ложную корреляцию между A и C, которая не отражает причинно-следственной связи.

Оператор do и математическое определение смешивания.

Оператор do представляет собой нотацию для обозначения действия в системе и записывается, например, P(Y|do (X)), что указывает на вероятность Y при манипулировании X. Например, он может представлять увеличение продажа шляп от солнца в ответ на то, что жители города получают по 1000 фунтов каждый, т. е. P(продажи шляп от солнца | делать (давать деньги)) больше, чем P(продажи шляп от солнца | делать (не давать деньги)). Или ответ биологической клетки на вмешательство в лаборатории, например, введение в клетку глюкозы, Р(увеличение метаболической активности|до(глюкоза)). Оператор do — это новая нотация Перла. Важные новые обозначения, как объяснено ниже.

Операция do(X) — это манипулирование X независимо от всех других факторов в системе, что эквивалентно удалению всех стрелок на причинно-следственной диаграмме, указывающих на X. Теперь мы определили do(X), но как мы определяем Р(У| делать(Х))? Определение P(Y| do(X)) и подобных выражений является предметом этого подраздела и следующей статьи.

Один из способов оценить P(Y| do(X)) — провести интервенционный эксперимент. Дайте некоторым жителям случайно выбранных городов по 1000 фунтов и посмотрите, увеличатся ли продажи шляп от солнца по сравнению с некоторыми случайно выбранными городами, жители которых не получили 1000 фунтов! Однако в области причинно-следственного вывода разработаны методы получения пассивно наблюдаемых данных, то есть без вмешательства, и расчета эффекта причинного вмешательства, представленного do-оператором.

Чем данные из системы, с которой мы что-то делаем, отличаются от данных, собранных без каких-либо действий с системой? До введения нотации «делать» ближе всего к выражению причинно-следственной связи мы могли подойти с использованием условной вероятности, но это обычно означает видение, а не действие; т. е. пассивное наблюдение за системой (наблюдательное исследование), а не наблюдение за результатом каких-либо действий с системой (интервенционное исследование).

Условная вероятность — это наша оценка возможности увидеть одну вещь при условии, что мы уже видели другую, например, вероятность того, что человек купит шляпу от солнца при условии, что сегодня солнечный день, записывается как P (человек покупает шляпу от солнца | солнечный день). Мы могли бы ожидать, что P(человек покупает шляпу от солнца | солнечный день) будет больше, чем P(человек покупает шляпу от солнца | пасмурный день). Другим примером может быть P(ребенок очень грамотный|рост ребенка 140 см) больше, чем P(ребенок очень грамотный|ребенок ростом 95 см), как обсуждалось в статье 1 этой серии. Условная вероятность может определить, коррелируют ли два наблюдения, сравнивая P(Y|X), вероятность события Y при условии, что мы уже наблюдали X, с P(Y) вероятностью Y при отсутствии знания X. , Если P(Y|X) не равно P(Y), то Y должно измениться по мере изменения состояния X. Однако такую ​​корреляцию между Y и X нельзя интерпретировать как причинно-следственную связь из-за возможного смешения, как описано ранее в этой статье.

В отличие от P(Y|X), P(Y|do(X)) не рассматривает изменение вероятности Y в ответ на наблюдение определенного состояния X. P (Y|do(X)) указывает на изменение вероятности увидеть Y в ответ на активное изменение X, почти как в лаборатории. P(Y|do(X)) не склонен к путанице. В то время как условная вероятность P(Y|X) рассматривает только ту часть данных, которая имеет определенное значение X, P(Y|do(X)) спрашивает, как будут выглядеть все данные, если значение X были активно установлены на определенное значение. Факторы, причинно зависящие от X, будут изменяться в ответ на do-оператор в X, но факторы, которые обычно вызывают X, не изменятся, поэтому из причинной диаграммы удаляются все стрелки, указывающие на X. Стрелки, указывающие на X, перестают влиять это после применения do-оператора, так как do-оператор является тогда единственным определителем X. Этот последний момент является ключевым различием между P(Y|do(X)) и P(Y|X), которое должно стать яснее с примером в абзаце после следующего.

Чтобы определить P(Y|do(X)) нам нужно физически вмешаться в систему или тщательно применить до-исчисление. Для некоторых систем do-исчисление может повторно выразить P(Y|do(X)) как вероятность без do-оператора, т. е. такую, которая может быть определена путем пассивного наблюдения за системой. P(Y|do (X)) на самом деле является сокращением для (P(Y=y|do(X=x)), вероятности того, что Y имеет значение y при условии, что X установлено в значение x, для каждого значения y и x в системе, т. е. распределение вероятностей Y, если мы активно устанавливаем значение X. Точно так же P(Y|X) является сокращением для P(Y=y|X=x), вероятность (в системе без внешнее вмешательство), что мы видим Y = y при условии, что X = x, для каждого значения X. То есть распределение вероятностей Y для различных наблюдений X. Мы вычисляем P (Y | X) из каждого подмножества данных с X = x, считая увеличить долю этого подмножества, которое имеет Y = y.

Например, вилка A ← B → Cна рис. 4 выше, применение оператора do к A устраняет его причинно-следственную зависимость от B. Применение do(A) устанавливает значение A независимым от B. Поскольку C зависит от B, но не от A, значение C будет независимым A. Это не тот случай, если мы просто наблюдаем за данными, как мы обсуждали ранее. Когда мы наблюдаем за данными, не делая ничего, А и С коррелируют даже при отсутствии причинно-следственной связи. Чтобы напомнить вам пример из статьи 1 этой серии, способность ребенка к чтению и его рост коррелируют из-за того, что оба они обычно увеличиваются по мере взросления ребенка. Однако, если бы мы вмешались и дали некоторым детям больше уроков чтения (вмешательство терапевта), их способность к чтению, вероятно, улучшилась бы быстрее, чем без вмешательства; их рост будет продолжать увеличиваться с той же скоростью, что и до вмешательства, и, таким образом, корреляция между ростом и способностью к чтению будет нарушена, и будет продемонстрировано отсутствие причинно-следственной связи. Возвращаясь к рис. 4, уроки чтения сломали стрелку между B (возраст) и A (умение читать), оставив на причинно-следственной диаграмме только стрелку B → C (возраст определяет рост) и убрав корреляцию между A и C. .

Приведенный выше пример указывает нам на четкое определение смешения. Смешение подразумевается, если вмешательство в точке А дает результат, отличный от наблюдения за данными без вмешательства. То есть, если P(C|A) не равно P(C|do(A)), то часть воздействия A на P(C), а возможно, и все, исходит из косвенной связи между A и C.

Однако, если P(A|do(C)) > P(A), это означает, что C способствует возникновению A; выполнение C увеличивает вероятность A. Если P(A|do(C)) ‹ P(A), причинный эффект все еще существует, но на этот раз выполнение C уменьшает вероятность A, подразумевая, что C оказывает тормозящее влияние на A (при условии, что do(C) увеличивает значение C). К счастью, иногда мы можем рассчитать эффект do-оператора, не вмешиваясь в систему физически, и этого можно добиться с помощью do-исчисления, которое мы рассмотрим в следующей статье.

Сводка

Do-operator и причинно-следственные диаграммы позволяют нам лучше понять, как возникает путаница, как ее можно идентифицировать и какие переменные контролировать в статистическом анализе. Обсуждение здесь было несколько поверхностным, и мы вернемся к этим идеям в статье 5, где они исследуются с помощью числовых данных.

Do-исчисление развивает do-оператор дальше, позволяя нам манипулировать выражениями do-оператора в выражения наблюдения, например, заменять P(Y|do(X)) на P(Y|X) и, вместе с причинно-следственными диаграммами, предоставляет инструменты для устранения путаницы в статистическом анализе. Таким образом, нам легче отличить вероятную причинность от простой корреляции. Do-исчисление и смешение являются предметом следующей статьи.