Не корреляция.

Причинность относится к взаимосвязи между двумя событиями или переменными, когда одно событие (причина) напрямую вызывает или влияет на возникновение другого события (следствия). Установление причинно-следственной связи предполагает демонстрацию того, что изменение причины приводит к изменению следствия и что никакие другие факторы не смешивают эту связь.

Чем это отличается от корреляции?

Корреляция — это статистическая мера, описывающая силу и направление связи между двумя переменными. Сильная корреляция указывает на то, что две переменные тесно связаны, но это не обязательно означает, что одна переменная вызывает другую.

Давайте посмотрим на пример

Вызывает ли употребление мороженого солнечные ожоги?

Мы наблюдаем, что в летние месяцы по мере увеличения продаж мороженого увеличивается и количество солнечных ожогов. Это предполагает положительную корреляцию между продажами мороженого и солнечными ожогами. Однако мы не можем предполагать, что увеличение продаж мороженого напрямую вызывает больше солнечных ожогов.

В этом случае скрытая переменная или искажающий фактор, вероятно, ответственны за наблюдаемую корреляцию.

Скрытой переменной здесь является теплая, солнечная погода. По мере повышения температуры люди чаще проводят время на открытом воздухе, что увеличивает риск солнечных ожогов.

В то же время жаркая погода также увеличивает спрос на мороженое, поскольку люди стремятся остыть. Теплая погода влияет как на продажи мороженого, так и на солнечные ожоги, но между ними нет прямой причинно-следственной связи.

Еще одна ложная корреляция

Вот довольно абсурдный пример: существует сильная корреляция между количеством фильмов Николаса Кейджа, выходящих каждый год, и количеством людей, которые тонут в бассейнах.

Причинность — это когда движение одного числа на самом деле является результатом движения другого числа — так называемая «причина и следствие».

Вам интересно исследовать странные корреляции? Вы можете сделать это в Google Trends или попробовать страницу Тайлера Вигена.

Причинно-следственные методы

Причинный вывод имеет решающее значение в различных областях, таких как экономика, государственная политика и здравоохранение, поскольку он помогает установить причинно-следственную связь между переменными, а не только их корреляцию. В этом разделе мы представим пять основных методов причинно-следственного вывода, кратко объясним каждый метод и обсудим их предположения.

1. Рандомизированные контролируемые испытания (РКИ)

Рандомизированные контролируемые испытания включают случайное распределение субъектов в группу лечения или контрольную группу. Лечебная группа получает интересующее вмешательство, а контрольная группа - нет. Рандомизируя назначение, исследователи могут изолировать причинно-следственный эффект лечения на переменную результата.

Предположения:

  • Случайное распределение гарантирует, что как экспериментальная, так и контрольная группы в среднем идентичны во всех аспектах, кроме лечения, что устраняет любые смешанные факторы.
  • Участники должны придерживаться назначенной им группы (лечения или контроля), чтобы сохранить рандомизацию.

2. Сопоставление показателей склонности (PSM)

Сопоставление показателей склонности — это метод, используемый для оценки причинно-следственного эффекта лечения, когда случайное назначение невозможно. Он включает в себя сопоставление леченных и нелеченных субъектов на основе их оценок склонности, которые представляют собой предполагаемые вероятности получения лечения с учетом их наблюдаемых характеристик.

Предположения:

  • Неспутанность: наблюдаются все искажающие факторы, неизмеряемые искажающие факторы отсутствуют.
  • Общая поддержка: существует достаточное совпадение показателей предрасположенности между леченными и нелечеными субъектами, что гарантирует, что у каждого леченного субъекта есть сопоставимый нелеченный субъект.

3. Инструментальные переменные (IV)

Инструментальные переменные — это метод, используемый для оценки причинных эффектов при наличии неизмеряемой смешанной переменной или проблемы эндогенности. Он включает использование внешней переменной (инструмента), которая коррелирует с переменной лечения, но не коррелирует с переменной результата, за исключением ее влияния на переменную лечения.

Предположения:

  • Релевантность: инструмент должен быть коррелирован с лечебной переменной.
  • Экзогенность: инструмент не должен коррелировать с неизмеренными мешающими переменными или ошибкой в ​​уравнении результата.
  • Ограничение на исключение: инструмент влияет на переменную результата только через воздействие на переменную лечения.

4. Дизайн разрыва регрессии (RDD)

План разрыва регрессии — это квазиэкспериментальный план, используемый для оценки причинно-следственного эффекта лечения, когда субъекты распределяются в группы лечения или контрольные группы на основе порогового значения переменной назначения. В RDD эффект лечения оценивается путем сравнения исходов чуть выше и чуть ниже порогового значения.

Предположения:

  • Непрерывность: потенциальные результаты являются непрерывными функциями переменной присваивания около порога.
  • Никаких манипуляций: Субъекты не могут манипулировать переменной назначения, чтобы выбрать свой статус лечения.

5. Модели с фиксированными эффектами и разница в разнице (DiD)

Модели с фиксированными эффектами и разница в различиях — это методы панельных данных, используемые для оценки причинно-следственных эффектов при наличии ненаблюдаемой неоднородности между субъектами или группами. Модели с фиксированными эффектами контролируют ненаблюдаемые, неизменные во времени специфические для субъекта факторы, в то время как DiD оценивает причинно-следственный эффект лечения путем сравнения изменений результатов до и после лечения между группами, получавшими и не получавшими лечения.

Предположения:

  • Параллельные тенденции (для DiD): в отсутствие лечения группы, получавшие лечение, и контрольная группа следовали бы параллельным тенденциям в переменной исхода с течением времени.
  • Неизменная во времени ненаблюдаемая гетерогенность (для моделей с фиксированными эффектами): любые ненаблюдаемые искажающие факторы постоянны во времени и могут быть исключены или проконтролированы путем включения фиксированных эффектов для конкретного субъекта.

Давайте посмотрим, как причинно-следственная связь работает в реальном наборе данных.

Набор данных

Набор данных о мировом счастье — это ежегодный отчет, в котором страны ранжируются на основе субъективного благополучия или уровня счастья их граждан. Отчет публикуется Сетью поиска решений в области устойчивого развития Организации Объединенных Наций и выпускается с 2012 года. Набор данных основан на данных Всемирного опроса Гэллапа и других источников с целью дать представление о том, как социальные, экономические и политические факторы могут влиять на счастье страны.

Ссылка:-https://github.com/chakraborty-arnab/DataSphere/blob/main/TEH_World_Happiness_2015_2019.csv

Ссылка на блокнот:-https://colab.research.google.com/drive/1e-OyqSLgl0MexW8d9BTp2No_wmFV-UmD#scrollTo=vpt3_ubKsxtf

Корреляционная матрица

Корреляционная матрица представляет собой квадратную симметричную матрицу, которая представляет парные коэффициенты корреляции между несколькими переменными. Значение 1 указывает на идеальную положительную корреляцию, -1 указывает на идеальную отрицательную корреляцию, а 0 указывает на отсутствие корреляции.

import seaborn as sns
import matplotlib.pyplot as plt

# Calculate the correlation between all variables
correlation_matrix = data.corr()

# Create a heatmap of the correlation matrix
plt.figure(figsize=(8, 6))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', vmin=-1, vmax=1, square=True, linewidths=0.5)
plt.title('Correlation Matrix of World Happiness Report Variables')
plt.show()

Регрессия МНК с контрольными переменными

Обыкновенная регрессия методом наименьших квадратов — это популярный статистический метод оценки взаимосвязи между зависимой переменной и одной или несколькими независимыми переменными. Включив контрольные переменные в регрессионную модель, мы можем учесть смешанные факторы, которые могут влиять на зависимую переменную, но не представляют основного интереса. Этот подход помогает изолировать причинное влияние основной независимой переменной на зависимую переменную.

Общая форма регрессионной модели МНК с контрольными переменными:

Y = β0 + β1X1 + β2X2 + … + βkXk + ε

Где:

Y — зависимая переменная X1, X2, …, Xk — независимые переменные (включая основную интересующую независимую переменную и управляющие переменные) β0 — точка пересечения β1, β2, …, βk — коэффициенты независимых переменных ε — термин ошибки

import statsmodels.api as sm

# Prepare the data for regression
X = data[['GDP per capita', 'Social support', 'Healthy life expectancy','Freedom to make life choices','Generosity','Perceptions of corruption']]
X = sm.add_constant(X)
y = data['Happiness Score']

# Fit the linear regression model
model = sm.OLS(y, X).fit()
print(model.summary())
 OLS Regression Results                            
==============================================================================
Dep. Variable:        Happiness Score   R-squared:                       0.764
Model:                            OLS   Adj. R-squared:                  0.762
Method:                 Least Squares   F-statistic:                     418.0
Date:                Sun, 23 Apr 2023   Prob (F-statistic):          4.88e-239
Time:                        23:24:34   Log-Likelihood:                -638.44
No. Observations:                 782   AIC:                             1291.
Df Residuals:                     775   BIC:                             1324.
Df Model:                           6                                         
Covariance Type:            nonrobust                                         
================================================================================================
                                   coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------------------------
const                            2.1779      0.080     27.279      0.000       2.021       2.335
GDP per capita                   1.1504      0.083     13.923      0.000       0.988       1.313
Social support                   0.6392      0.081      7.933      0.000       0.481       0.797
Healthy life expectancy          1.0016      0.131      7.621      0.000       0.744       1.260
Freedom to make life choices     1.4812      0.163      9.063      0.000       1.160       1.802
Generosity                       0.5957      0.176      3.391      0.001       0.251       0.940
Perceptions of corruption        0.8424      0.223      3.782      0.000       0.405       1.280
==============================================================================
Omnibus:                       16.182   Durbin-Watson:                   1.468
Prob(Omnibus):                  0.000   Jarque-Bera (JB):               18.176
Skew:                          -0.286   Prob(JB):                     0.000113
Kurtosis:                       3.481   Cond. No.                         23.8
==============================================================================

Notes:
[1] Standard Errors assume that the covariance matrix of the errors is correctly specified.

Ограничения использования регрессии МНК для причинно-следственной связи:

  • Ненаблюдаемое искажение: если есть ненаблюдаемые смешанные переменные, которые не включены в качестве контрольных переменных в регрессионную модель, причинно-следственная интерпретация коэффициентов все равно может быть предвзятой.
  • Обратная причинно-следственная связь: регрессия МНК не может учитывать возможность обратной причинно-следственной связи, когда зависимая переменная влияет на независимую переменную.
  • Направление причинно-следственной связи: оценочные коэффициенты показывают только направление связи, а не направление причинно-следственной связи.

Несмотря на эти ограничения, регрессия МНК с контрольными переменными может быть ценным инструментом для вывода о причинно-следственных связях, особенно в сочетании с другими методами и проверками надежности.

Сопоставление оценки склонности

Сопоставление оценок склонности обычно используется в обсервационных исследованиях с бинарными переменными лечения, чтобы сбалансировать распределение наблюдаемых ковариат между группами лечения и контроля, что помогает уменьшить потенциальное смешение. Однако в случае Доклада о мировом счастье ВВП является непрерывной переменной, а не бинарной трактовкой, и страны не могут быть отнесены к экспериментальной и контрольной группам, как в типичном обсервационном исследовании.

Давайте создадим переменную бинарного лечения и оценки склонности, используя логистическую регрессию:

import numpy as np
from sklearn.linear_model import LogisticRegression

# Create a binary treatment variable based on the median GDP per capita
gdp_boundary = data['GDP per capita'].quantile(0.75)
data['high_gdp'] = (data['GDP per capita'] >= gdp_boundary).astype(int)

# Fit a logistic regression model to estimate propensity scores
X = data[['Social support', 'Healthy life expectancy','Freedom to make life choices','Generosity','Perceptions of corruption']]
y = data['high_gdp']
propensity_model = LogisticRegression(random_state=42).fit(X, y)

# Calculate propensity scores
data['propensity_score'] = propensity_model.predict_proba(X)[:, 1]

Наконец, давайте выполним сопоставление показателей склонности и сравним средние показатели счастья в группах с высоким и низким ВВП:

from sklearn.neighbors import NearestNeighbors

# Split the data into high-GDP and low-GDP groups
high_gdp_data = data[data['high_gdp'] == 1]
low_gdp_data = data[data['high_gdp'] == 0]

# Perform propensity score matching using nearest neighbors
nn = NearestNeighbors(n_neighbors=1).fit(low_gdp_data['propensity_score'].values.reshape(-1, 1))
distances, indices = nn.kneighbors(high_gdp_data['propensity_score'].values.reshape(-1, 1))

# Create a DataFrame with matched pairs of high-GDP and low-GDP countries
matched_pairs = pd.concat([
    high_gdp_data.reset_index(drop=True),
    low_gdp_data.iloc[indices.flatten()].reset_index(drop=True)
], axis=1, keys=['high_gdp', 'low_gdp'])

# Compare the average happiness scores of the high-GDP and low-GDP groups
high_gdp_medn = matched_pairs['high_gdp']['Happiness Score'].mean()
low_gdp_mean = matched_pairs['low_gdp']['Happiness Score'].mean()
print(f"Average happiness score of high-GDP countries: {high_gdp_mean:.2f}")
print(f"Average happiness score of low-GDP countries: {low_gdp_mean:.2f}")
print(f"Difference in average happiness scores: {high_gdp_mean - low_gdp_mean:.2f}")
Average happiness score of high-GDP countries: 6.70
Average happiness score of low-GDP countries: 6.06
Difference in average happiness scores: 0.65

Давайте визуализируем

Первая визуализация показывает распределение показателей счастья для групп с высоким и низким ВВП. Вторая визуализация отображает распределение показателей склонности для двух групп.

import matplotlib.pyplot as plt
import seaborn as sns
# Plot the distribution of happiness scores for high-GDP and low-GDP groups
sns.histplot(data=high_gdp_data, x='Happiness Score', color='blue', alpha=0.5, kde=True, label='High GDP')
sns.histplot(data=low_gdp_data, x='Happiness Score', color='red', alpha=0.5, kde=True, label='Low GDP')
plt.xlabel('Happiness Score')
plt.ylabel('Frequency')
plt.legend(title='GDP Group')
plt.title('Happiness Score Distribution by GDP Group')
plt.show()

# Plot the distribution of propensity scores for high-GDP and low-GDP groups
sns.histplot(data=high_gdp_data, x='propensity_score', color='blue', alpha=0.5, kde=True, label='High GDP')
sns.histplot(data=low_gdp_data, x='propensity_score', color='red', alpha=0.5, kde=True, label='Low GDP')
plt.xlabel('Propensity Score')
plt.ylabel('Frequency')
plt.legend(title='GDP Group')
plt.title('Propensity Score Distribution by GDP Group')
plt.show()

Ключевые результаты

  • Корреляция между показателями ВВП и счастья не обязательно подразумевает причинно-следственную связь. При анализе взаимосвязи между двумя переменными важно учитывать потенциальные смешанные факторы и систематические ошибки.
  • Регрессионные модели МНК, которые включают контрольные переменные, являются полезными методами для оценки причинно-следственной связи между показателями ВВП и счастья. Они помогают изолировать влияние ВВП, контролируя потенциальные смешанные факторы, такие как социальная поддержка, ожидаемая продолжительность жизни, свобода, щедрость и восприятие коррупции.
  • Сопоставление показателей склонности — это альтернативный метод причинно-следственного вывода, который может помочь свести к минимуму систематические ошибки, возникающие из-за наблюдаемых смешанных факторов. Сопоставляя лечебную и контрольную группы на основе их оценок склонности, он имитирует случайное назначение лечения, что помогает установить причинно-следственные связи.

Рекомендации