Причинность — обширная и сложная область. Вот карта, которая поможет вам понять это.

Мир причинно-следственных связей можно разделить на две основные области:

  • Основная часть причинно-следственного вывода. Причинно-следственный вывод связан с пониманием последствий предпринимаемых вами действий. Причинно-следственный вывод предоставляет инструменты, которые позволяют изолировать и рассчитать эффект изменения в системе, даже если это изменение никогда не происходило на практике. Причинно-следственный вывод можно использовать для ответа на следующие вопросы: Стало ли мне лучше, потому что я принял определенное лекарство? Насколько мне нужно увеличить свои расходы на рекламу, чтобы достичь моих целей по доходам? Как размер класса влияет на успеваемость?
  • Остров причинно-следственных связей: методы причинно-следственных связей берут данные и определяют в них причинно-следственные связи. Важно отметить, что отношения, которые раскрывает причинно-следственная связь, не являются просто статистическими корреляциями. Причинно-следственная связь инвариантна к изменениям и представляет собой более фундаментальную основу для понимания системы.

Горы экспериментов ⛰️

Наиболее очевидным местом для начала знакомства с миром причинности являются Горы Экспериментов. Горы вырисовываются большими над ландшафтом и не зря. К ним относятся методы золотого стандарта для понимания причинно-следственных связей с наибольшей достоверностью.

Ключом к пониманию эффективности этих методов является понимание значения случайного распределения. Вмешиваясь в мир, эксперименты рандомизируют тех, кто получает определенное лечение, а тех, кто нет, — контроль. Лечение может быть чем угодно: доза лекарства, количество удобрений, внесенных в культуру, утренний распорядок дня.

Поскольку лечение является рандомизированным, если вы выбираете достаточно большую выборку из населения, то, говоря статистически, единственная разница между вашей экспериментальной и контрольной группами заключается в самом лечении. Вам удалось устранить все другие факторы, которые обычно искажают ваши результаты. Эти внешние факторы, которые имеют как причинно-следственную связь с вашим лечением, так и с вашим результатом, называются вмешивающимися факторами. Все методы причинно-следственного вывода, о которых вы прочтете в этом посте, направлены на устранение искажающих факторов. Следовательно, любое различие между экспериментальной и контрольной группами должно быть связано с лечением, что позволяет рассчитать эффект лечения.

Рассмотрим пример, когда вы фермер и хотели бы понять эффект обработки вашего урожая новым шикарным удобрением. Вместо того, чтобы наивно вносить удобрения на все поле, вы можете разделить поле на квадраты. Для каждого квадрата вы подбрасываете монету и в зависимости от результата либо вносите удобрения, либо нет. При этом вы рандомизировали, применяете ли вы удобрения или нет, и, таким образом, удалили все факторы, которые могут повлиять на ваш выбор. Кроме того, поскольку вы работаете в одной и той же области, мешающие факторы, такие как погода, контролируются и не могут повлиять на результаты. Затем вы можете просто сравнить урожайность обработанных квадратов с необработанными, чтобы получить эффект обработки.

Город природных экспериментов 🌆

Во многих случаях проведение эксперимента в реальном мире просто невозможно. Эксперименты могут быть неэтичными, непомерно дорогими, технически невозможными или любой комбинацией этих факторов. Итак, что делать, если вы столкнулись с ситуацией, когда вы не можете провести эксперимент?

Ученые из самых разных областей сталкивались с такими ситуациями на протяжении поколений. Экономисты не могут масштабировать контролируемые эксперименты до размеров наций. Биологи не могут вмешиваться, чтобы назначать пациентам лечение, которое, по их мнению, может быть вредным. Таким образом, эти ученые разработали множество методов для выявления естественной рандомизации, что позволяет им устранять предвзятость и определять эффекты лечения, не вмешиваясь напрямую. Эти техники населяют Город природных экспериментов.

Все методы в Сити ведут себя одинаково, используя естественную рандомизацию для расчета эффектов лечения, но для более глубокого понимания этого пришло время сосредоточиться на одном: на инструментальных переменных. Это переменные, которые не вызывают и не коррелируют с результатом, как и любые другие искажающие факторы, но они имеют прямое причинно-следственное влияние на лечение. В графическом виде инструментальная переменная выглядит идентично подбрасыванию монеты фермером из предыдущего раздела.

Вернемся к нашему примеру с сельским хозяйством. Фермер предпочитает кукурузу и хочет понять, насколько изменение цены повлияет на объем продаж. Фермер знает, что существует множество факторов, влияющих на его продажи кукурузы: стоимость транспортировки, общий урожай в этом году, потребительские тенденции и т. д. Однако наш фермер понимает, что в годы с меньшим количеством осадков урожайность ниже, а когда урожайность ниже, фермеры повышать цены.

Теперь, чтобы погода была хорошей инструментальной переменной, наш фермер предполагает, что:

  • Погода и продажи кукурузы не смешиваются ни с каким другим фактором; тот, который вызывает их обоих.
  • Погода не влияет на продажи кукурузы.

Если эти предположения верны, а опыт фермера в области рынка кукурузы также показывает, что рандомизация, вызванная погодой, и достаточно большой набор данных позволили бы фермеру рассчитать влияние цены на продажи кукурузы, и все это без проведения реального анализа. мировой эксперимент!

Причинно-следственный мост 🌉

Причинный вывод можно рассматривать как двухэтапный процесс: идентификация и оценка. Идентификация — это процесс определения набора переменных, которые вам необходимо контролировать, т. е. поддерживать постоянными, чтобы изолировать интересующий причинный эффект. Затем оценка представляет собой применение статистических методов к вашим данным для расчета эффекта. Причинно-следственные графы де-факто являются инструментом идентификации.

Причинно-следственные графики визуализируют причинно-следственные связи в данных, которые вы хотите исследовать. Вы уже видели причинно-следственную диаграмму в предыдущем разделе, когда рассматривали, как удобрения повлияют на урожайность фермера.

Причинные графы представляют собой направленные ациклические графы (DAG), что означает, что они представляют переменные в виде узлов, а направленные ребра между узлами показывают причинное влияние одной переменной на другую. Края также представляют собой двустороннюю корреляцию между переменными, в то время как причинно-следственная связь является только одной, корреляции или статистические ассоциации - двумя путями. Следовательно, корреляции могут указывать на причинно-следственные связи, но не являются доказательством.

Один из способов представить причинно-следственный граф — это оценка того, как генерируются данные. Причинно-следственные связи описывают, как одна функция сама по себе или в сочетании с другими приводит к другой, что в конечном итоге приводит к созданию функции, которую вы хотите изучить.

В предыдущих разделах вы узнали о том, как рандомизация может устранить искажающие эффекты смешанных переменных. Причинно-следственные графики позволяют достичь той же цели без рандомизации. Это означает, что вам не обязательно проводить эксперимент или определять естественный источник случайности, чтобы распутать причинно-следственные связи в ваших данных.

Остров Причинных Открытий 🏝️

Причинное обнаружение — это процесс объединения алгоритмов и экспертных знаний в предметной области для поиска подходящего причинно-следственного графа.

Однако на острове причинных открытий трудно жить. Вы пытаетесь оценить причинно-следственную диаграмму, представляющую процесс генерации данных, который вы никогда не сможете полностью наблюдать в реальности — в этом нет истинной истины. Следовательно, для большинства реальных данных причинно-следственные графики являются лучшими оценками процесса генерации данных и не могут быть проверены как истинные представления рассматриваемых явлений.

Это не означает, что каузальные графики, восстановленные в результате каузального открытия и лежащие в основе большинства каузальных выводов, бесполезны. Наоборот, эти графики обеспечивают мощный прогресс в чисто статистических методах машинного обучения, продвигая вас дальше к механистическому пониманию интересующей вас системы.

Существует ряд различных алгоритмов, которые вы можете применить к собранным данным, чтобы выявить причинно-следственные связи. Двумя наиболее распространенными категориями алгоритмов обнаружения причин являются:

  • На основе ограничений. Выполняя тесты условной независимости, в которых контролируются различные переменные в наборе данных и измеряется их влияние на другие переменные, алгоритм может выявить определенные причинно-следственные закономерности. Повторное применение тестов условной независимости ко всему набору данных позволяет построить более полную картину лежащего в основе причинно-следственного графика.
  • На основе оценки. Этот класс алгоритмов предлагает ряд различных причинно-следственных структур, которым затем присваивается оценка в зависимости от того, насколько хорошо они соответствуют исходным данным. Алгоритм начинается с базовых структур, а затем строится на наиболее подходящих с помощью повторных раундов оценки, чтобы получить причинно-следственную структуру, охватывающую доступные переменные.

Загвоздка применения алгоритмов к вашим данным заключается в том, что они никогда не смогут получить полностью разрешенный причинно-следственный граф. Выходные данные всегда будут иметь некоторые ребра, которые не имеют четкого причинно-следственного направления, и именно здесь вступают в действие человеческие знания в предметной области. Знание предметной области имеет решающее значение для создания пригодного для использования причинно-следственного графа и, следовательно, имеет решающее значение для получения точных результатов причинно-следственного обнаружения.

Последним препятствием в причинном открытии является наличие ненаблюдаемых искажающих факторов. Это переменные, которые смешивают интересующие вас переменные, но отсутствуют в вашем наборе данных. Без наблюдения эти искажающие факторы означают, что многие методы причинно-следственного вывода не работают. Методы причинно-следственной связи и человеческий опыт могут быть здесь эффективными, поскольку они могут помочь отметить, где ненаблюдаемые искажающие факторы могут влиять на процесс генерирования данных.

Подходящий лес 🌲

Соответствующий лес — это место, где Causal Graph Bridge выходит на сушу. Причинно-следственные графики позволяют легко понять, какие переменные следует контролировать при попытке оценить причинно-следственный эффект. Методы Matching Forest предоставляют вам инструменты для перехода от графического мира к приложениям в ваших данных. Методы сопоставления хорошо изучены и широко используются в литературе, что приводит к пышному зеленому лесу.

Сопоставление — это процесс устранения смешанных эффектов между лечением и исходом путем создания групп сравнения, сходных по набору совпадающих переменных. Эти совпадающие переменные обычно идентифицируются с помощью причинно-следственной диаграммы.

Интуиция здесь такова, что вы строите контрольную группу, которая имеет свойства, аналогичные вашей обработанной группе. Следовательно, любые различия в результатах между ними должны быть связаны с лечением, что приводит к оценке причинно-следственного эффекта.

Простейшим инструментом сопоставления является подклассификация.

При построении графика лечения (упражнений) в зависимости от результатов (холестерина) вы заметите тенденцию к снижению, как показано в левой части рисунка выше. Однако, группируя данные по искажающей переменной (возрасту) и, таким образом, создавая подклассы, вы сможете наблюдать истинную взаимосвязь между вашим лечением и результатом (см. справа). Подклассификация интуитивно понятна и проста для понимания, однако по мере роста количества переменных, которые необходимо контролировать, объем требуемых данных резко возрастает. Это ограничивает применимость подклассификации во многих случаях, что приводит к другим методам, которые заполняют соответствующий лес.

Моделирование болота 🍃

Болото Моделирования — это место, где все становится немного неясным. Болото моделирования является домом для некоторых из наиболее знакомых инструментов причинно-следственного вывода, в отличие от менее зарекомендовавших себя новичков. Модели предоставляют мощные методы для оценки причинно-следственных связей, и хотя некоторые полагаются на полностью определенный причинно-следственный график, другие могут действовать эффективно без этого требования.

Самый популярный метод в болоте моделирования — это старая добрая регрессия. Регрессия по методу наименьших квадратов (OLS) — чрезвычайно гибкий и ценный инструмент для оценки причинно-следственных связей. Он популярен и по уважительной причине:

  • Теоретически хорошо понятен. МНК и другие типы методов регрессии очень хорошо понятны со статистической точки зрения. Это означает, что предположения о применении регрессии к вашей задаче ясны, что позволяет вам сделать осознанный выбор в отношении результатов.
  • Интерпретируемость. Регрессионные модели легко объясняются, в отличие от более современных методов машинного обучения. Это делает их отличными для использования в случаях с более высокими ставками, например, когда речь идет о регулировании.
  • Вывод причинно-следственных связей — это просто. Контроль факторов, влияющих на результаты, и оценка причинно-следственных связей с помощью регрессии не представляют сложности. Изученные коэффициенты в уравнении регрессии представляют собой оценки причинно-следственного эффекта данной переменной с учетом других — см. рисунок ниже.

Второй метод, на котором стоит остановиться подробнее, — это структурно-причинная модель (СКМ). SCM строит непосредственно из основ причинно-следственного графа и изучает математические формы причинно-следственных связей, выявленных с помощью предметной экспертизы или алгоритмического обнаружения причинно-следственных связей.

Это означает, что ребра и узлы в вашем причинно-следственном графе теперь имеют математические отношения, извлеченные из данных. Это невероятно мощно, поскольку позволяет легко создавать сценарии «что, если», вмешиваясь в модель. Вмешательство просто означает изменение значения узла в графе. Затем SCM описывает, как это изменение отразится на других переменных и, в конечном итоге, на лечении. В результате с репрезентативным SCM вы можете начать исследовать огромное количество различных сценариев и сравнивать влияние различных действий.

Пустыня принятия решений 🐪

Пустыня Решения Интеллекта бесплодна и отдалена, однако здесь есть оазисы. Эта область карты охватывает растущее число методов, которые выходят за рамки оценки эффекта лечения. Чтобы проиллюстрировать типы методов, содержащихся в пустыне, давайте рассмотрим алгоритмическое обращение.

В машинном обучении распространенным типом техники объяснимости являются контрфактические объяснения. Противоречивые объяснения ставят вопрос; что нужно было бы изменить, чтобы результат был другим?

Например, представьте себе модель машинного обучения удержания, которая предсказала, что клиент уйдет. Объяснение, объясняющее, почему этот человек, скорее всего, уйдет, может заключаться в следующем: если бы он был старшим клиентом в возрасте 65 лет и старше, он бы продлил подписку.

Алгоритмический регресс строится на понятии контрфактических объяснений, но с упором на предоставление вам возможности действовать, а не просто понимать. Поэтому алгоритмический регресс дает возможность рекомендовать действия для изменения неблагоприятных исходов, позволяя вмешиваться в систему для их предотвращения.

Это в конечном итоге превращает приведенный выше пример оттока из бесполезного объяснения в действенную рекомендацию. Применение регресса, чтобы предотвратить увольнение этого человека: если бы он получил скидку 10%, он бы продлил подписку. Поскольку скидки — это то, на что можно воздействовать, это позволяет вам влиять на изменения в реальном мире.

Вывод 🏁

Вы совершили вихревое путешествие по тому, что является глубоким и захватывающим предметом. Я надеюсь, что вам понравилось ваше путешествие в мир причинно-следственных связей, и вы чувствуете мотивацию узнать больше.

Если вы хотите погрузиться глубже, я настоятельно рекомендую следующие книги и ресурсы в качестве отправной точки:

  1. Курс Брейди Нила по причинно-следственным выводам на Youtube: отличная серия вводных видео, которые познакомят вас со многими темами, обсуждаемыми в этом посте.
  2. The Effect или Causal Inference the Mixtape: книги, в которых больше внимания уделяется традиционным методам причинно-следственного вывода. Это даст вам мощную основу для продолжения вашего путешествия. Обе книги любезно предоставлены их авторами бесплатно, но я всегда рекомендую приобрести физическую копию, если вы можете себе это позволить!
  3. Причинный вывод для смелых и верных: действительно интересное чтение о том, как сталкиваются миры причинно-следственного вывода и машинного обучения. Имеет отличные практические примеры кода, которые позволяют вам учиться на практике!