Цели этой статьи — представить основы причинно-следственного вывода, изучить примеры того, как таблица данных может быть легко неверно истолкована, и обсудить, как специалист по данным может интегрировать причинно-следственный вывод в конвейер машинного обучения.

Основным справочным материалом для этой статьи является книга Перла, Глимура и Джуэлла «Причинно-следственные связи в статистике: учебник для начинающих» . Дополнительная библиография и ссылки представлены в конце этой статьи.

Мотивация

Развитие и популяризация в последние годы различных алгоритмов машинного обученияи глубокого обучения позволяют нам моделировать очень сложные отношения. и шаблоны, включающие большое количество переменных и наблюдений, что приводит к реализации решений чрезвычайно сложных проблем.

Большинство этих сложных алгоритмов дают модели черного ящика,то есть модели, в которых очень сложно восстановить влияние каждого входа на результат модели- . Если мы заботимся только о точности предсказания, работа с моделью черного ящика не должна быть серьезной проблемой. Однако, если мы обнаружим сценарий, в котором наша модель не работает, маловероятно, что мы узнаем причину.

Когда мы не имеем дело с моделью черного ящика, мы обычно пытаемся понятькак взаимодействуют наши различные переменные; в случаях, когда у нас мало предварительных знаний о переменных, которые мы моделируем, трудно исключить ошибочную модель, и мы, скорее всего, будем введены в заблуждение ее результатами, придя к ложным выводам.

Имея это в виду, я обнаружил, что у любого специалиста по данным есть две основные мотивации для изучения причинного вывода:

  1. Определите различные подмножества переменных, которые необходимо моделировать отдельно, что приведет к большему контролю над тем, как и что изучают наши модели.
  2. Разработайте инструменты, чтобы избежать неправильного толкования как таблиц данных, так и результатов, полученных с помощью алгоритмов машинного обучения.

Почему причинно-следственный вывод?

«Корреляция не подразумевает причинно-следственную связь». Это фраза, которую каждый студент на любом курсе бакалавриата слышал так много раз, что в конечном итоге она становится мантрой, которую они позже произносят своим студентам/коллегам/клиентам. Как только мы учимся количественно определять корреляции между переменными, нас предупреждают о том, как легко неверно истолковать значение корреляции. Например, дождь и мокрая улица являются переменными с положительной корреляцией, но если на улице промокнет дождь, это не произойдет.

Байесовская и частотная статистика не предоставляют инструментов, позволяющих определить, делает ли дождь мокрой улицу, или если намокание пола вызывает дождь, или ни то, ни другое. Они могут помочь нам с моделированием и количественной оценкой существующей зависимости между дождем и мокрой улицей.

Проблема в том, что в большинстве задач, где данные моделируются с помощью алгоритмов машинного обучения, ожидается, что специалист по обработке и анализу данных предоставит выводы, такие как «дождь делает улицу мокрой». Поскольку мы знаем, что данные не дадут таких результатов, специалисты по обработке и анализу данных обычно полагаются на экспертов на местах и на здравый смысл. Эксперт может посмотреть на существующие зависимости между нашими переменными и понять их смысл, используя свои обширные знания в этой области. Это взаимодействие полевого эксперта и специалиста по данным может управлять как исследовательским анализом данных, так и интерпретацией результатов, полученных обученной моделью. А иногда данные и результаты кажутся настолько четкими, что здравого смысла может быть достаточно, чтобы разобраться в данных (так же, как мы уже сделали с дождем и мокрой улица пример).

К сожалению, сценарии, в которых недостаточно здравого смысла или даже когда знаний эксперта недостаточно, слишком распространены. Нам потребуютсястатистические инструменты, которые помогут нам понять существующую причинно-следственную связь между нашими переменными.

Прослеживается параллелизм с проверкой гипотез. Поставим себя на место Рональда Фишера, когда Мюриэль Бристоль заявила, что может определить, налито ли молоко до или после чая в ее чашку, просто попробовав его. Фишер решил приготовить 10 чашек чая с молоком, причем сначала чай наливали только в 5 из них. Получив эту информацию, Мюриэль Бристоль должна была попробовать каждую чашку и объявить, что было налито первым: чай или молоко; давайте предположим, что она сделала только 4 ошибки. Итак, как мы можем сделать вывод из данных, обоснованы ли ее претензии? В этой специфической области нет экспертов, и трудно оценить, много ли 4 ошибок или нет. Фишеру нужно было разработать статистический инструмент — точный критерий Фишера, — чтобы на основе данных можно было сделать статистический вывод.

Причинно-следственная связь предназначена для предоставления статистических выводов по вопросам причинно-следственной связи. И это может действительно помочь нам в некоторых сценариях, где взаимодействие между переменными слишком сложно или не изучено.

Как выглядит причинно-следственный вывод?

Причинно-следственный вывод моделирует взаимодействие каждой переменной, связанной с нашей проблемой, даже учитывая те, для которых у нас нет доступных данных, используя направленный ациклический граф (DAG), где каждый узел является переменной, каждая ссылка указывает на прямую зависимость, и каждое направление ссылки указывает на причинно-следственный поток. Итак, если X и Y две переменные в нашей задаче, стрелка от Xк Y будет существовать, если и только если X является прямой причиной Y.

Переменные, составляющие нашу DAG, можно разделить на две группы. Экзогенные переменные — это те, которые не вызваны никакими другими переменными; мы обычно помещаем в эту категорию случайные переменные, представляющие шум, или переменные, для которых у нас нет доступных данных. Эндогенные переменные — это переменные, которые (прямо или косвенно) вызваны экзогенными переменными; каждая эндогенная переменная должна быть переменной, для которой у нас есть доступные данные.

Важно отметить, что Causal Inference не заботится о форме или степени зависимости между переменными, у нас уже есть модели и алгоритмы машинного обучения для этой задачи. Причинно-следственный вывод заботится о том, чтобы определить, какие переменные являются прямой причиной других (является ли X причиной Y? Это вопрос «да/нет») и помогает нам понять последствия результирующего причинно-следственного потока.

При выводе причинной DAG с нуля одним из возможных методов является предложение различных возможных DAG и оценка их жизнеспособности путем проверки условной или безусловной независимости различных пар переменных; если мы получаем результаты, которые не согласуются с данным DAG, то мы отбрасываем последний. Поскольку существует так много возможных DAG при большом количестве переменных, изучение каждого возможного DAG является затратным в вычислительном отношении; помощь полевых экспертов может помочь сузить поиск. Обычно не существует уникальной жизнеспособной группы обеспечения доступности баз данных, выбор того, какую из них мы должны сохранить, — это еще одна проблема, в которой полевой эксперт может оказать большую помощь.

Когда у нас уже есть DAG, нам может быть интересно задать такой вопрос, как «является ли X причиной Y?». Вмешательства и исчисление — это инструменты, которые позволят нам ответить на такие вопросы (при условии, что эта причинно-следственная связь может быть идентифицирована). Короче говоря, вмешательства позволяют нам заставить значение переменной в каждом наблюдении быть постоянным, и это даст ответы на такие вопросы, как «если у нас есть группа больных людей, как изменится скорость выздоровления?» если им дадут экспериментальный препарат?». Очевидно, проблема в том, что мы не можем давать препарат всем, и в то же время никому не давать препарат, и сравнивать результаты. Людей обычно делят на контрольную группу и экспериментальную группу одинакового размера, которые изучаются и сравниваются; используя вмешательства, мы можем использовать эти данные для оценки того, какой глобальный сценарий обеспечивает наибольшую скорость восстановления. Если причинно-следственная связь идентифицируема, мы можем использовать do-calculus для расчета вмешательств.

Парадокс Симпсона

Давайте рассмотрим очень простой игрушечный пример, который может ввести в заблуждение. Пример взят из книги Причинно-следственный вывод в статистике: учебник для начинающих и первоначально предложен Эдвардом Х. Симпсоном в 1951 году. Идея состоит в том, чтобы показать, как глубокое понимание причинно-следственной структуры наших переменных может помочь нам избежать неправильного толкования.

Предположим, мы хотим оценить, улучшает ли экспериментальное лекарство скорость выздоровления пациентов. Как обычно, мы собираем контрольную группу (где люди не лечатся) и экспериментальную группу (где людям дают экспериментальное лекарство), а затем мы собираем полученные результаты. данные, которые мы приводим в табл. 1. Поскольку соотношение мужчин и женщин в обеих группах очень неравномерно, результаты также сегментированы по половому признаку.

Когда мы наблюдаем скорость выздоровления по группам, мы делаем вывод, что прием препарата снижает скорость выздоровления. Но при наблюдении по сегментам мы наблюдаем, что и женщины, и мужчины имеют повышенные показатели выздоровления при приеме препарата. Итак, как специалист по обработке и анализу данных, каким должен быть вывод? Должны ли мы рекомендовать препарат, даже если он снижает общую скорость выздоровления? Или мы не должны рекомендовать его, даже если от него выигрывают и женщины, и мужчины?

При консультации с врачом, который является экспертом в этом заболевании, нам сообщают, что мы должны знать, что эстроген снижает скорость выздоровления. Это можно проверить в таблице 1. Таким образом, при рассмотрении переменных употребление наркотиков, пол и скорость выздоровления мы можем предложить причинно-следственную структуру после группы DAG, показанной на рисунке 1.

Теперь мы понимаем, что экспериментальная группа имеет более низкий показатель выздоровления, поскольку в ней больше женщин, чем в контрольной группе. При анализе воздействия препарата на каждый сегмент мы наблюдаем его полезные свойства. Вывод должен заключаться в том, что мы рекомендуем использование препарата.

Если вы думаете, что этот пример слишком вводит в заблуждение, просто представьте, насколько хуже он может стать при рассмотрении большого количества переменных со сложными взаимодействиями. Кроме того, мы не обсуждали, как количественно оценить вклад приема лекарств в показатель выздоровления, мы просто отметили, что это «помогает».

Добавление причинно-следственной связи в наше моделирование данных

Как указывалось ранее, причинно-следственный вывод не является альтернативой машинному обучению. Наоборот, причинно-следственный вывод дает нам инструменты и идеи, которые дополняют конвейер машинного обучения.

Мой идеальный конвейер выглядит примерно так:

  1. Упорядочивание и упорядочивание данных,
  2. Исследовательский анализ данных,
  3. Выявление взаимосвязей между переменными,
  4. Моделирование существующих отношений между переменными,
  5. Количественная оценка существующих отношений между переменными,
  6. Выводы.

На мой взгляд, причинно-следственный вывод очень помог бы в пунктах 3, 4 и 6. Что касается пункта 4, то я нахожу очень интересной идею построения составных моделей, в которых мы моделируем взаимодействия между переменной и ее непосредственным значением. причины, начиная с экзогенных переменных и встраиваясь глубже в причинный поток. Я думаю, что эта методология может дать более надежные и интерпретируемые модели.

Кроме того, некоторые проблемы выглядят как «возврат списка переменных, влияющих на целевую переменную Y», что следует атаковать в основном с помощью причинно-следственной связи (поскольку нас не волнует, как они влияют на Y). Используя машинное обучение, эти проблемы можно решить с помощью интерпретируемых моделей с переменными функциями выбора/важности; но, как мы видим, это не может быть идеальным подходом.

Библиография и ссылки

  1. Причинно-следственный вывод в статистике: учебник для начинающих. Перл, Глимур и Джуэлл, 2016 г. (книга).
  2. Введение в причинно-следственные связи с точки зрения машинного обучения. Нил, 2020 г. (черновик книги).
  3. Возвращение к Do-исчислению. Жемчужина, 2012 г. (основная лекция).
  4. Машинное обучение для причинно-следственных связей в биологических сетях: перспективы этой задачи. Лекка, 2022 г. (статья).
  5. Книга почему: новая наука о причине и следствии. Перл и Маккензи, 2018 г. (книга).
  6. Интерпретируемость машинного обучения. Бенбрика, 2022 г. (блог).
  7. Почему специалист по данным должен изучать причинно-следственные связи. Ye, 2022 (блог).