В предыдущем сообщении блога мы обсудили и обосновали необходимость причинного подхода к обучению с подкреплением. Мы утверждали, что обучение с подкреплением естественным образом попадает на интервенционную ступень лестницы причинно-следственной связи. В этом сообщении блога мы разработаем некоторые идеи, необходимые для понимания материала, рассматриваемого в этой серии. Это может быть довольно техническим, но не волнуйтесь. Всегда есть что взять с собой. Давайте начнем.

Эта серия

  1. Обучение с причинным подкреплением
  2. Предварительные условия для CRL
  3. Задача 1: Обобщенное изучение политики
  4. Скоро: задание 2

Как вы, наверное, помните из старшей школы, вероятность и статистика почти полностью основаны на идее извлечения случайных выборок из эксперимента. Можно представить себе наблюдение реализации результатов из некоторого набора возможностей при извлечении из набора независимых и одинаково распределенных (i.i.d.) событий. На самом деле это предположение i.i.d. события не удается во многих ситуациях. Подумайте о том, чтобы изменить распределение событий или вмешаться в систему. Этот провал часто фундаментального допущения в статистике является одной из причин причинного подхода, который мы будем развивать.

В теории вероятностей и статистике мы пытаемся предсказать результат, а затем сопоставить некоторую вероятность возникновения события с учетом некоторого распределения лежащего в основе пространства событий. В статистическом обучении, включая машинное обучение, мы решаем обратную задачу. Мы пытаемся найти основное описание данных. В статистике для умозаключений обычно используется вероятностный подход. Статистическое машинное обучение можно рассматривать как простое расширение этого подхода - применение информации, собранной из собранных данных, для вывода закономерностей или ассоциаций, возникающих в процессе генерации данных.

Проблема причинного вывода и причинно-следственного обучения является более сложной. Даже если бы у нас было совершенное и полное знание наблюдаемого распределения, мы все равно не знали бы лежащую в основе причинную структуру данных. Причинное моделирование более фундаментально, чем вероятностный подход, поскольку в такой модели содержится дополнительная информация о взаимосвязях между переменными. Причинно-следственные рассуждения позволяют нам анализировать эффекты вмешательств или изменений распределения и делать прогнозы в более общем смысле, чем традиционные статистические подходы. Кроме того, это позволяет приводить аргументы против фактов - способности, которой обычно не хватает агенту обучения с подкреплением. Таким образом, определение причинной структуры становится обратной проблемой.

Используя данные наблюдений и результаты, а также данные вмешательства, мы хотели бы вывести основные взаимосвязи между соответствующими интересующими переменными. Эти отношения между различными методами моделирования и рассуждения визуализированы на рисунке ниже. Хотя мы не можем вывести конкретную причинную структуру, мы можем, по крайней мере, сделать вывод о существовании лежащих в основе причинных связей из статистической зависимости между ними. Эта серия сообщений в блоге знакомит с некоторой продвинутой теорией и методами именно по этому предмету.

После того, как преамбула сделана, в этом разделе будут кратко представлены необходимые понятия, которые будут либо напрямую использоваться, либо полезны в общем контексте на протяжении всей статьи. Более подробная информация об основной теории причинно-следственного вывода и теории обучения с подкреплением доступна в приложениях. Возможно, наиболее фундаментальным формализмом этой формулировки причинной теории является идея структурной причинной модели.

Рассмотрим пример. На рисунке ниже показан SCM с соответствующим графическим представлением. Здесь Z является экзогенным, а остальные переменные - эндогенными. С каждой переменной связаны шумовые переменные N, которые указывают на вероятностный характер присвоений.

Еще одна важная концепция - это идентифицируемость. Обратите внимание, что SCM индуцирует совместное распределение по интересующим переменным. Например, SCM C → E индуцирует P {C, E}. Естественно, мы задаемся вопросом, можем ли мы определить, в общем, было ли совместное распределение получено из модели C → E или E → C. Оказывается, мы не можем, поскольку графы не уникальны в создании этого совместного распределения. Другими словами, структура не идентифицируется по совместному распределению, потому что лежащие в основе графы добавляют дополнительный уровень знаний к тому, который дается объединением. Предложение ниже формулирует эту идею, указывая, что мы можем построить SCM из совместного распределения в любом направлении, то есть ← или →. Об этом важно помнить, особенно если мы планируем попытаться использовать данные наблюдений для вывода причинной структуры.

Предложение (неединственность структур графа [10]): для каждого совместного распределения P_ {X, Y} двух вещественных переменных существует SCM Y = f_Y (X, N_Y), X ⊥ Y, где f_Y - измеримая функция, а N_Y - переменная шума с действительным знаком.

Еще одно важное свойство, которое будет полезно в дальнейшем анализе, - это d-разделение. По сути, это говорит нам об отношениях условной независимости, доступных в причинной модели. В некотором роде это говорит нам, какая информация (в форме переменных) «связывает» другие переменные посредством причинно-следственной связи. В следующих разделах мы обнаружим, что это очень полезное свойство при изучении причин и манипулировании графами для некоторых важных алгоритмов.

Определение (d-разделение [11]): говорят, что множество узлов Z в причинном графе блокирует путь p, если (1) p содержит хотя бы одно входящее или исходящее ребро, которое пересекает вершина в Z, или (2) p содержит по крайней мере одну вершину столкновения, которая находится вне Z и не имеет потомков в Z. Если Z блокирует все доступные пути из множеств X в Y, X и Y называются d-разделенными Z.

В контексте каузального обучения свойство d-разделения информирует нас о том, как переменные зависят друг от друга. Например, если X и Y разделены буквой Z через d, мы знаем, что информация не может перемещаться между X и Y через какой-то черный ход, если мы контролируем Z. Это критическое понятие, поскольку оно лежит в основе большей части этой статьи, посвященной ненаблюдаемым искажениям. и скрытые переменные. Еще одно важное понятие - верность. Это предположение указывает на то, что причинно-следственные связи образуются только в результате d-разделения.

На рисунке выше показаны примеры причинных графов, относящиеся к теории, обсужденной ранее. (A) показывает пример d-разделения. (B) показывает результирующий график вмешательства на X, do (X = x). (C) показывает результат попытки заблокировать прямой путь между X и Y, приводящий к путям бэкдора. Рисунок взят из [11].

Judea Pearl представляет три правила исчисления, которых оказывается достаточно для самых разнообразных манипуляций между «ступенями» лестницы причинности (см. Стр. 234, [7]). Первое правило по большей части довольно очевидно. Когда выполняется наблюдение, не зависящее от интересующих переменных, оно не влияет на распределение вероятностей. Формально,

где Z блокирует все пути от W до Y в причинной модели G_ {X}. То есть модель со стрелками, направленными на X, удалена. Второе правило касается бэкдорных путей. Если Z удовлетворяет критерию черного хода, то P (Y | do (X), Z) = P (Y | X, Z). Другими словами, после учета всех необходимых вмешивающихся факторов наблюдение соответствует вмешательству. Наконец, если между X и Y нет причинно-следственной связи, то P (Y | do (X)) = P (Y). Эти три простых правила чрезвычайно эффективны при большом количестве доказательств. Они окажутся полезными в некоторых примерах, которые мы обсудим в следующих разделах.

В конечном итоге мы заинтересованы в оптимизации процедур принятия решений. Проблема многорукого бандита (MAB) - это, пожалуй, самая популярная и упрощенная постановка, встречающаяся в литературе, посвященной последовательному принятию решений, и она служит ключевой отправной точкой в ​​исследованиях обучения с подкреплением (RL). Теория принятия решений MAB также богата и достаточно полна для простых сценариев, которые удовлетворяют строгим допущениям. Саттон и Барто [12] - авторы основополагающего вводного текста в RL - подробно обсуждают эту проблему в контексте оптимального управления и оптимальности Беллмана.

Проблема MAB включает в себя максимизацию ожидаемого вознаграждения / выплаты, учитывая, что распределение вознаграждения каждой бандитской руки изначально неизвестно агенту. Это можно перефразировать как минимизацию сожалений, испытываемых агентом, что часто встречается в литературе по причинно-следственным связям и оптимальному контролю. Сожаление о политике или стратегии распределения A после n игр определяется следующим образом:

где μ * = max {1 ≤ i ≤ K} μ_i. Здесь T_i (n) обозначает количество раз, когда машина i игралась в соответствии с политикой A, μ представляет ожидаемое вознаграждение машины, а * обозначает оптимальную политику. Таким образом, сожаление - это ожидаемые убытки из-за неоптимальных действий политики.

Сожаление - это естественная и интуитивно понятная величина, с которой можно работать, и она служит показателем эффективности обучения - ключом к общему интеллекту для искусственных агентов. Сожаление - это ключевая величина, на которую обращается эта работа по обучению с причинным подкреплением. Конечно, обучение с подкреплением обычно направлено на последовательное принятие решений в долгосрочной перспективе. Обычно это формулируется в терминах MDP.

Определение (Марковский процесс принятия решений (MDP) [12]): Марковский процесс принятия решений (MDP) - это набор из 5 состояний S, A, P, R, γ ›состояний S, действий A, вероятности перехода P, вознаграждение R и коэффициент дисконтирования γ. Учитывая состояние и действие, карта перехода определяет следующее состояние и соответствующее вознаграждение в соответствии с вероятностью перехода.

На рисунке ниже показаны отношения между переменными в классической настройке RL MDP. Очевидно, что этот процесс носит марковский характер. Состояния и награды основаны исключительно на предыдущих состояниях и предпринятых действиях. Действие регулируется политикой π _t. См. [13] для хорошего введения в RL.

Эта модель MDP делает несколько строгих неявных предположений об интересующей системе. Например, эти состояния полностью соблюдаются, и нет никаких искажений по какой-либо интересующей переменной. Предположение Маркова явно не работает во многих областях, включая индивидуализированные режимы лечения (которые рассматриваются в следующих разделах). Это ключевой фактор, побуждающий к необходимости добавления причинно-следственной связи в теорию обучения с подкреплением. Теперь мы готовы приступить к разработке теории обучения с причинным подкреплением. Начнем с обсуждения контекста Шести задач Bareinboim.

Шесть задач

Причинный вывод устанавливает набор принципов и методов работы с данными на структурном уровне. Обрамление процесса генерации данных на языке причинно-следственных связей при явных предположениях о лежащей в основе генеративной модели позволяет нам рассуждать о причинно-следственных связях в контрфактическом характере. Обучение с подкреплением связано с максимизацией вознаграждения перед лицом неопределенности в потенциально чужих средах и областях данных. Эти два поля, хотя и кажутся несопоставимыми, оба имеют дело с данными интервенционным и, возможно, контрфактическим образом. Лаборатория CausalAI Элиаса Барейнбойма в Колумбийском университете попыталась связать эти области вместе, поместив их в единую концептуальную и теоретическую основу [9]. Такое сочетание работы привело - и дает - к впечатляющим результатам, которые были бы невозможны без такого подхода. Bareinboim инкапсулирует работу в этой области как подпадающую под набор из шести задач, которые эти области могут совместно решать и вносить свой вклад. Он дублирует эту область исследований «Обучение с подкреплением» (Causal Reinforcement Learning, CRL). Это составляет суть того, что исследуется, исследуется и вводится в данной статье. Следует отметить, что Bareinboim et al. находятся в процессе создания такого введения в CRL. Этот документ просто служит для независимого обзора области и, возможно, предоставляет альтернативный контекст для определения этой области работы. Заинтересованному и заинтересованному читателю рекомендуется обратиться к исходному материалу. Исследователи в этой области очень активны.

Начнем с обсуждения обобщенного изучения политики. В общем, это включает в себя систематическое сочетание автономных и онлайн-режимов наблюдения и взаимодействия (то есть вмешательства) с окружающей средой для повышения эффективности обучения. Затем мы обсуждаем проблему определения того, когда и где вмешиваться в причинно-следственную систему. Большая часть статьи посвящена третьей задаче - принятию контрфактических решений. Это включает использование как данных наблюдений, так и экспериментальных данных, чтобы рассуждать о контрфактических величинах и повышать эффективность обучения. Используя информацию, содержащуюся в предполагаемых действиях агента, мы можем узнать о невидимых факторах, которые влияют на систему и сбивают ее с толку. Затем мы обсудим идеи и методы изучения структурных инвариантов в причинной системе, чтобы помочь в переносимости данных между доменами. Пятая задача сосредоточена на изучении причинной структуры на основе наблюдения и взаимодействия с окружающей средой. Наконец, мы обсуждаем причинно-следственную имитацию обучения. Общий подход к этой статье состоит в том, чтобы включить доказательства, которые помогают в объяснении или обеспечивают важное понимание метода или подхода к проблеме. Кроме того, если они демонстрируют какую-либо полезную технику или просто считаются интересными, они будут включены. Аналогично для размещения фигур и включенных алгоритмов. Этот документ написан для краткости, но включает критические обсуждения и помогает в общей теме разработки теории для работы в направлении общего интеллекта. Мы начнем с обсуждения некоторых современных методов обобщения изучения политики для комбинации онлайн- и офлайн-доменов на временном горизонте, которые не обязательно являются марковскими, например, в сфере здравоохранения.

Об авторе: Привет, я Сент-Джон и веду блоги о современных технологиях и интересных вещах для моего личного блога stjohngrimbly.com. В настоящее время меня, помимо прочего, интересуют машинное обучение и причинно-следственная связь. Надеюсь, вам понравится это быстрое чтение!

использованная литература

  • [8] Элиас Барейнбойм, Хуан Д. Корреа, Дулигур Ибелинг и Томас Икард. Об иерархии жемчуга и основаниях причинно-следственной связи. неопубликовано, 2020.
  • [9] Элиас Барейнбойм. Причинное подкрепление обучения. ICML 2020, 2020.
  • [10] Дж. Петерс, Д. Янцинг и Б. Шёлкопф. Элементы причинного вывода: основы и алгоритмы обучения, 2017.
  • [11] Элиас Барейнбойм и Дж. Перл. Причинный вывод и проблема слияния данных. Труды Национальной академии наук, 113: 7345–7352, 2016.
  • [12] Ричард Саттон и Эндрю Барто. Обучение с подкреплением: Введение. MIT Press, второе издание, 2018.
  • [13] Сергей Левин. Deep rl в Беркли: CS285. Http://rail.eecs.berkeley.edu/deeprlcourse/, 2019.

Первоначально опубликовано на https://stjohngrimbly.com 10 декабря 2020 г.