Давайте поставим себя на место детектива и исследуем причинно-следственные связи.

Как мы видели в первой части этой статьи, состоящей из двух частей, измерение причинно-следственного эффекта имеет решающее значение для получения правильных выводов, потому что каждый ваш выбор или решение, которое вы принимаете, обычно являются результатом ожидаемых причинно-следственных связей.

Например:

Индивидуальный выбор:

  • Если я стану веганом, я уменьшу свой экологический след.
  • Если я выпью эту текилу, я буду танцевать лучше.

Компании:

  • Домашний офис снижает производительность
  • Рассылая пользователям спам с помощью YouTube Premium Ads, вы увеличиваете количество подписчиков.

Политики:

  • Замена атомных электростанций возобновляемыми источниками энергии поможет достичь Парижского соглашения.
  • Карантин снизит распространение Covid-19

Дело в том, что не существует статистического теста, доказывающего причинно-следственную связь вашего эффекта. Чтобы оспорить причинно-следственную связь, как объяснялось в первой части этой статьи, можно задать два основных вопроса: есть ли что-то еще, что могло бы объяснить взаимосвязь между причиной и следствием, и может ли быть наоборот (т. вызывает причину)?

[Как] мы можем найти доказательства причинно-следственной связи, несмотря на отсутствие статистических тестов для прямой проверки причинно-следственной связи?

Эти вопросы позволяют нам оспаривать причинно-следственные связи. Но как мы можем найти доказательства причинно-следственной связи, несмотря на отсутствие статистических тестов для прямой проверки причинно-следственной связи? В этой статье я покажу вам, как исследователи работают над увлекательной научной статьей: «ЛОНДОНСКИЙ ТУМАН: ВЕК ЗАГРЯЗНЕНИЯ И СМЕРТНОСТИ, 1866–1965» (Hanlon (2018)).

Для этого поставим себя на место полицейских детективов. Детективы полиции постоянно пытаются ответить на причинно-следственные вопросы: кто стал причиной смерти этого человека? Был ли это полковник Мастард с подсвечником в оранжерее? Вы уверены, что это был не гаечный ключ или что преступление совершил кто-то другой? В нашем случае у нас есть подозрение, а точнее гипотеза, которую мы хотели бы проверить (например, загрязнение увеличивает смертность). И тогда мы спрашиваем себя, действительно ли это было загрязнение или эволюция служб здравоохранения? Или это было следствием погоды? и т. д.

Обычно, если вы хотите выяснить, кто совершил преступление, у вас очень редко есть видеозапись того, как кто-то совершает преступление. И даже если вы это сделаете, возможно, изображение размыто, а может быть, это подделка. Поэтому вы никогда не можете быть на сто процентов уверены в личности преступника. Чтобы преодолеть это ограничение, вы накапливаете улики, пытаетесь отбросить все возможные алиби преступника, пока у вас не будет достаточно улик, и вам удастся отбросить основные другие истории (это кто-то другой? Этот человек делал что-то еще?). То же самое и в исследованиях, когда мы хотим найти причинно-следственные связи.

Практический пример: лондонский туман и смертность

Позвольте мне проиллюстрировать эти концепции следующей статьей «ЛОНДОНСКИЙ ТУМАН: ВЕК ЗАГРЯЗНЕНИЯ И СМЕРТНОСТИ, 1866–1965» (Hanlon (2018)). Лондон был густонаселенным и сильно загрязненным районом уже в 19 веке. Автор этой исследовательской работы отвечает на очень важный вопрос: каково влияние облучения на смертность?

Интересная часть этой статьи связана с тем фактом, что данные о загрязнении воздуха стали доступны только с 1950-х годов. Однако точные метеорологические данные доступны с 1850-х годов. Таким образом, идея статьи состоит в том, чтобы использовать туман в качестве индикатора загрязнения, потому что, когда погода туманная, загрязнение остается низким, а подверженность горожан воздействию загрязнения увеличивается (см. рисунок ниже).

Вы можете найти полную записную книжку Python с моим кодом для воспроизведения статьи и создания графика, который я буду использовать в этой статье, здесь: Записная книжка Deepnote.

Первый взгляд на эффект

В статье исследуется влияние сильного тумана на смертность. Поэтому давайте сначала посмотрим, как изменилась смертность (все причины вместе) от пяти недель до недели сильного тумана до пяти недель после. Похоже, что уровень смертности увеличивается при ударе (неделя 0), а также в последующие недели. Однако этот эффект можно объяснить многими факторами (например, сезонностью).

Набор данных содержит еженедельные данные о погоде и смертности в Лондоне с 1850 по 1940 год и не включает годы Первой мировой войны.

Можем ли мы отбросить историю о сезонности и временной тенденции?

Во-первых, давайте посмотрим, как количество явлений тумана распределяется в течение года. Здесь очень сильная сезонность (вероятность встретить сильный туман зимой выше). Поэтому важно уловить влияние сезонности в нашей модели, потому что холодная погода связана с большим количеством тумана, а также потенциально с большим количеством смертей (люди заболевают, когда холодно).

Во-вторых, давайте посмотрим на частоту недель с сильным туманом с 1850 по 1940 год. Опять же, мы видим сильную корреляцию. Мы наблюдаем меньшее количество недель с туманом в среднем после 19:00 по сравнению с периодом до 19:00. Модель должна учитывать эту эволюцию, чтобы не смешивать этот эффект с интересующим нас эффектом. Это связано с тем, что качество медицинской системы со временем меняется, снижая уровень смертности, а количество недель с туманом также со временем уменьшается. Следовательно, если мы не уловим временную тенденцию, это может привести к завышению коэффициента (переоценке влияния тумана на смертность).

Обратите внимание, что даже если вы не знакомы с моделью, представленной ниже, вы должны быть в состоянии проследить и понять ее идею. Расчетная модель представляет собой простую линейную регрессию:

с t на неделю. Fog^s – это фиктивная переменная, принимающая значение 1, когда на неделе s+t был сильный туман. X – это вектор метеорологических элементов управления, включая количество осадков, температуру, давление и влажность. Год и Неделя – фиксированных эффектов, соответственно улавливающих эффект года и эффект календарной недели (сезонность). e – ошибочный термин.

Таким образом, эта модель позволяет измерить влияние на смертность до, во время и после нескольких недель сильного тумана, принимая во внимание метеорологические условия, сезонность и годовые фиксированные эффекты (эволюцию во времени).

На рисунке выше сравнивается модель без учета сезонности (розовые квадраты) и модель с учетом сезонности (оранжевые кружки). Мы видим, что эффект сезонности действительно завышает коэффициенты (увеличение уровня смертности больше в розовой модели, чем в оранжевой). Кроме того, уровень смертности в модели с учетом сезонности возвращается к уровню до туманной недели через две недели.

Теперь давайте включим фиксированные эффекты года. Этот набор контрольных переменных отражает эволюцию загрязнения во времени, а также, например, качество сектора здравоохранения. Поэтому интерпретация коэффициентов немного отличается. Теперь исследуем отклонения коэффициента смертности от среднего коэффициента смертности в год t.

На рисунке ниже показано, что уровень смертности увеличивается в течение недели сильного тумана и на следующей неделе. Кроме того, мы видим, что управление погодой не сильно влияет на оценки.

Давайте теперь зададимся вопросом о причинной природе этого эффекта. Причина в том, что туман снижает уровень загрязнения и, следовательно, увеличивает смертность. Используйте инструмент, который я представил в первой части этой статьи: "Что, если этот эффект объясняется чем-то другим?".

Может ли это быть история несчастного случая и преступления?

Чем больше тумана, тем труднее увидеть, значит, больше несчастных случаев или преступлений. Чтобы исключить эту альтернативную историю, автор сравнивает уровень смертности на основе зарегистрированной причины смерти (например, несчастный случай/преступление против пневмонии).

На приведенном ниже рисунке показано, что нет никакого влияния на смертность от несчастных случаев/преступлений в течение недели сильного тумана, в то время как мы наблюдаем статистически значимое влияние на смертность, вызванную пневмонией.

Мы приближаемся к тому, чтобы поймать нашего подозреваемого: загрязнение. Есть еще одна альтернативная история, которую я хотел исследовать вместе с вами.

Может быть, это история о погоде и эпидемиологии?

Когда погода плохая (туман), люди остаются дома. Следовательно, если люди остаются дома, существует более высокий риск того, что они заразят других людей, и поэтому рост смертности (например, от пневмонии) является просто следствием этого, а не загрязнения. Кажется, очень сложно сфальсифицировать эту историю, не так ли?

Автор сделал что-то очень элегантное, чтобы отмести эту альтернативную историю. Автор сравнивает два разных погодных явления: сильный туман и сильный дождь. Действительно, сильный дождь будет иметь аналогичный эффект: люди могут оставаться дома дольше. Однако ключевым моментом здесь является то, что туман снижает уровень загрязнения, а дождь очищает воздух. Следовательно, если это история о загрязнении, мы обнаружим противоположный эффект дождя (меньше смертей) по сравнению с туманом.

На рисунке ниже показан именно этот эффект: туман убивает, дождь спасает жизни.

Заключение

В документе представлен сильный аргумент в пользу причинно-следственной связи между туманом и загрязнением воздуха для здоровья в Лондоне за столетие, с использованием доказательств, опровергающих различные альтернативные объяснения. Чтобы оценить причинно-следственную связь, может быть полезно задать два вопроса: «Есть ли что-то еще, что может быть причиной эффекта?» и «Может ли быть наоборот?». Кроме того, в следующий раз, когда вам придется оспаривать причинно-следственную связь, поставьте себя на место детектива, рассматривающего и собирающего доказательства за и против различных объяснений. Вместе, используя эту технику, давайте принимать более взвешенные решения и бороться с дезинформацией.