Как алгоритмы машинного обучения могут улучшить причинно-следственную связь?

Обнаружение причинно-следственных связей с помощью инструментов причинного моделирования

В последние годы алгоритмы машинного обучения пользуются большим успехом. Благодаря доступности значительного объема данных и увеличению скорости вычислений они превзошли обычные статистические методы.

Тем не менее, когда я узнавал больше о том, как они работают и как их применять, я пришел к удивительному факту: большинство этих алгоритмов были сосредоточены на создании наиболее точных прогнозов или классификаций, а не на доказательстве причинно-следственных связей. .

И все же такие отношения могут иметь решающее значение при принятии решений, особенно в секторах здравоохранения, социальных наук или наук о поведении.

Обдумайте следующие вопросы:

  • Насколько эффективны никотиновые пластыри в снижении привычки людей к курению
  • Какое влияние оказывает политика обновления на развитие неблагополучных районов?
  • Насколько последняя маркетинговая компания способствовала росту продаж?

Вы можете видеть, что эти вопросы являются скорее причинными, чем ассоциативными. Они требуют не только доказательства причинно-следственной связи, но и ее количественной оценки.

В большинстве случаев используются экспериментальные вмешательства: аналитики проводят опросы, собирают данные и анализируют их с помощью сложных статистических методов. Однако эти эксперименты могут быть дорогостоящими как с точки зрения времени, так и денег, а в некоторых случаях даже поднимать этические вопросы.

Более того, когда дело доходит до алгоритмов машинного обучения, они обычно ограничены по трем основным причинам:

  1. Отсутствие способности адаптироваться к новым обстоятельствам, для которых они не были обучены.
  2. Ограниченная объяснимость, поскольку они приводят мало причин, по которым их прогнозы или рекомендации могут вызвать недоверие пользователя.
  3. Отсутствие понимания причинно-следственных связей

Итак, есть ли другие альтернативы?

В этой статье я поделюсь с вами своими ключевыми выводами о некоторых важных инструментах причинного моделирования, таких как структурные модели, причинные диаграммы и связанная с ними логика.

Прочитав эту статью, вы узнаете:

  • Каковы разные уровни причинного вывода?
  • Как узнать причинно-следственную структуру с помощью графиков?
  • Как определить причинно-следственные связи?

Корреляция не подразумевает причинно-следственной связи

Прежде чем начать, необходимо еще раз вернуться к известной поговорке: корреляция - это не причинно-следственная связь. Это означает, что вы не можете обоснованно вывести причинно-следственную связь между двумя переменными только потому, что вы наблюдали корреляцию между ними.

Чтобы проиллюстрировать этот момент, давайте рассмотрим следующий график, опубликованный Мессерли в 2012 году в его статье Потребление шоколада, когнитивные функции и лауреаты Нобелевской премии (полный текст статьи).

Как указывает автор, существует корреляция между уровнем потребления шоколада в стране и когнитивной функцией ее населения (r = 0,791, p

Точнее говоря, если две случайные переменные X и Y статистически зависимы (X ⊥ Y), то либо:

  • X вызывает Y,
  • Y вызывает X или
  • существует третья переменная Z, которая вызывает и X, и Y. В этом случае X и Y становятся независимыми при заданном Z, т.е. X ⊥ Y | Z

Это известно как принцип общей причины, введенный Гансом Райхенбахом в 1956 году.

Следовательно, чтобы действительно исследовать влияние потребления шоколада, необходимо провести эксперимент. Это потребует, например, заставить страну есть больше шоколада и наблюдать, приведет ли это к увеличению числа нобелевских лауреатов.

Как видите, экспериментировать бывает просто невозможно. Это может даже вызвать этические вопросы, когда речь идет о проблемах со здоровьем. Следовательно, для доказательства причинности требуются другие инструменты.

Лестница причинно-следственных связей

Как разработал Перлз в его работе о причинном рассуждении, причинную информацию можно разделить на трехуровневую иерархию.

  1. Ассоциация
  2. Вмешательство
  3. Противоречащий фактам

Эта иерархия дает полезное представление о том, на какие вопросы может ответить каждый класс информации.

Давайте дальше развивать каждый уровень ...

1. Ассоциация или наблюдение

Это первый уровень и, следовательно, самый базовый. Он основан на чисто статистических отношениях с использованием имеющихся данных.

Например, покупатели, покупающие муку, скорее всего, также купят сливочное масло. Связи такого типа можно напрямую установить, используя условные вероятности и ожидания от наблюдаемых данных. Если x - это количество закупленной муки, а y - количество масла, то мы можем вычислить P (y | X = x) на основании данных.

Современные методы машинного обучения идеально подходят для решения подобных задач. Можно подумать об эффективности механизмов рекомендаций, используемых Amazon и аналогичными компаниями. Однако их результаты мало что говорят нам о реальной статистической зависимости между переменными.

2. Вмешательство или действие

Этот уровень стоит выше, чем Ассоциация, потому что он заключается не только в наблюдении за данными, но и в их изменении.

Например, в нашем предыдущем случае вмешательство было бы необходимо, чтобы ответить на следующий вопрос: что произойдет, если мы утроим цену на муку?

Поскольку такое повышение цены, вероятно, привело бы к изменению поведения покупателя, невозможно ответить на этот вопрос просто на основании наблюдаемых данных. Если x - это количество закупленной муки, а y - количество масла, то мы хотим вычислить P (y | X = do (x)) , где do означает, что мы вмешались, чтобы установить значение X равным x.

Важно помнить, что при наличии соучредителя, то есть переменной, которая влияет как на зависимую, так и на независимую переменную:

P(y|X=do(x)) ≠ P(y|X=x)

Чтобы проиллюстрировать этот момент, представьте, что клиенты покупают муку и масло только для того, чтобы испечь торт. Повышение цен на муку вообще отговорило бы их от выпечки!

3. Противоречия или воображение

Последний уровень представлен Контрфактуалами. Они отвечают на типичный вопрос: что, если бы я поступил иначе? Таким образом, они полагаются на ретроспективные рассуждения.

Например, было ли количество муки, которое я купил, единственной причиной, по которой я купил много масла, или это было связано с текущей рекламной акцией?

Если x - это количество закупленной муки, а y - количество масла, то мы хотим вычислить P (y | x'y ') , т. е. вероятность того, что событие Y = y будет наблюдаться, если бы X был x ', учитывая, что мы действительно наблюдали X должно быть x и Y быть y '.

Обратите внимание, что модель, которая может отвечать на контрфактические вопросы, также может отвечать на вопросы о вмешательствах и наблюдениях. Эта возможность не работает в обратном направлении. Вот почему контрфакты помещаются на вершину иерархии.

Методы обнаружения причин

Теперь, когда мы идентифицировали и классифицировали различные причинные выводы, давайте сосредоточимся на основных методах их установления.

Для этого мы сначала обсудим графические модели, используемые для моделирования причинных структур, и алгоритмы, используемые для их изучения. Затем мы опишем методы количественной оценки таких причинно-следственных связей.

В конце этого раздела будет представлена ​​сводная диаграмма для обобщения ключевых моментов.

Моделирование причинных структур с помощью графических моделей

Графическую модель можно рассматривать как карту структуры зависимости для заданного распределения вероятностей.

Прежде чем перейти к техническим деталям, необходимо различать два случая:

  1. Случай 1: набор данных не содержит ни пропущенных переменных, ни смещения выбора.
  2. Случай 2: набор данных содержит пропущенные переменные и / или смещение выбора.

Случай 1. Нет пропущенных переменных и смещения выбора

Причинную структуру можно визуализировать с помощью Направленных ациклических графов (DAG). Это математический инструмент, состоящий из графа, то есть состоящего из узлов и направленных ребер, не содержащего никаких циклов.

Однако один и тот же набор данных и условные (не) зависимости между его переменными могут привести к множеству DAG.

Рассмотрим следующий пример: мы хотим определить основные факторы, влияющие на оценки учащихся, и измерить их влияние. Для простоты мы возьмем только 3 переменные: X количество часов занятий по математике (включая индивидуальные уроки дома), Y расстояние между домами учащихся. и школа, Z - оценка учащихся по математике. Можно считать, что X ⊥ Y | Z.

Это предположение приводит к трем возможным группам DAG:

Вот почему необходимо ввести дополнительное понятие: Эквивалентный класс. Это набор графиков с одинаковым каркасом, но с разными отметками ребер. Эквивалентный класс DAG называется Завершенный частично направленный ациклический граф (CPDAG).

Легко сделать вывод об условной (не) зависимости узлов в случае 3 переменных. Но когда график содержит много переменных, необходимо ввести дополнительный инструмент: d-разделение.

Давайте определим d-разделение:
Два узла X и Y d-разделимы с помощью L, набора узлов, если условие для всех элементов в L блокирует все пути между двумя узлами.

Чтобы проиллюстрировать это, вот 2 примера:

Таким образом, понятие d-разделения предоставляет нам (не) отношения зависимости, определенные на графах, которые отражают условные (не) зависимости между переменными.

Как изучить графики DAG на основе заданного набора данных?

Хорошо известный алгоритм, алгоритм ПК, доступен в R package pcalg. По сути, он начинается с полного неориентированного графа, G0, и выполняет серию тестов условной независимости, в которых удаляются ребра. Это приводит к скелету. Затем каркас направляется на основе информации, сохраненной в наборах для кондиционирования.

Однако могут возникнуть две проблемы:

  • Скрытые переменные или факторы, влияющие на переменные, т. Е. Не включенные переменные, которые влияют на переменную.
  • Систематическая ошибка отбора из-за выбора переменных и выборки

Случай 2: с пропущенными переменными и смещением выделения

В этом случае нам нужно найти структуру, которая представляет все отношения условной независимости между наблюдаемыми переменными с учетом выбранных переменных. Это означает, что нам нужно выделить все скрытые переменные и иметь возможность визуализировать условные зависимости только между наблюдаемыми переменными.

Поскольку группы DAG не закрываются под маржой, нам необходимо использовать другой класс графов: Максимальный график предков ( MAG ) . Этот класс учитывает отсутствующий край, который соответствует условной независимости. Аналогичным образом частичный граф предков (PAG) - это класс эквивалентности MAG и m-разделения, обобщения d-разделения.

Как изучить графики MAG на основе заданного набора данных?

Изучение MAG может быть выполнено с помощью алгоритма FCI (Быстрый причинный вывод), который использует аналогичный подход к ПК, но с большим количеством тестов условной независимости и большим количеством правил ориентации. Также можно использовать алгоритм RFCI (Действительно быстрый причинно-следственный вывод), который быстрее, но результат в целом немного менее информативен. Оба алгоритма доступны в R package pcalg.

Оценка причинных эффектов

Наблюдение только за данными не позволяет нам количественно оценить причинное влияние одной переменной на другую. Для этого нам нужно измерить состояние Y, если X принудительно принять значение x, и сравнить это с значение Y, если X принудительно принимает значение x + δ. Мы полагаемся на это распределение P (y | X = do (x)).

Когда нет скрытой переменной и систематической ошибки выбора и когда причинная структура является известной DAG, информация об интервенционном распределении может быть получена с помощью набора правил вывода, известных как «исчисление на практике», разработанного Жемчуг.

На практике причинная структура редко известна. Тем не менее, можно по-прежнему иметь оценку, рассматривая класс эквивалентности истинного причинного DAG и применяя do-исчисление к каждому DAG в пределах эквивалентности. Это дает нам полезное приближение.

Эти идеи включены в метод IDA (I исчисление интервенций, когда D AG находится в положении a bsent).

Основные выводы

Идея: алгоритмы машинного обучения должны выходить за рамки прогнозов, чтобы по-настоящему оценить причинно-следственные связи и ответить на причинно-следственные вопросы.

Это важно по трем основным причинам:

  1. Уметь адаптироваться к новым обстоятельствам, к которым они не были подготовлены.
  2. Предоставьте дополнительные объяснения своих прогнозов или рекомендаций.
  3. Предложите понимание причинно-следственных связей между интересующими переменными.

В этом контексте причинно-следственные рассуждения выходят за рамки предсказания путем моделирования результатов вмешательств и формализации контрфактических рассуждений.

На следующем графике представлен обзор основных инструментов и алгоритмов, обсуждаемых в статье.

использованная литература

[1] Дж. Перл, Семь инструментов причинного вывода, с размышлениями о машинном обучении, сообщения ACM, март 2019 г.

[2] Ф. Дабландер, Введение в причинный вывод, 30 ноября 2019 г.

[3] К. Бинц, Причинный вывод с помощью pcalg, 9 апреля 2014 г.

[4] М. Калиш и др., Причинный вывод с использованием графических моделей с пакетом R Package pcalg, журнал статистического программного обеспечения, апрель 2012 г.

Примечание. Цель этой статьи - охватить теоретические концепции, а также продемонстрировать практические примеры с учетом информации, доступной в Интернете.