Игра со спецификациями — это вызов в обучении с подкреплением.

Недавно я запустил образовательный информационный бюллетень, посвященный ИИ, у которого уже более 125 000 подписчиков. TheSequence — это информационный бюллетень, ориентированный на машинное обучение, без BS (то есть без шумихи, без новостей и т. д.), чтение которого занимает 5 минут. Цель состоит в том, чтобы держать вас в курсе проектов машинного обучения, научных работ и концепций. Пожалуйста, попробуйте, подписавшись ниже:



Обучение с подкреплением (RL) — одна из самых чистых форм накопления знаний в области искусственного интеллекта (ИИ). В конце концов, есть что-то волшебное в программах, которые могут накапливать знания, естественным образом взаимодействуя с окружающей средой для выполнения конкретной задачи. Однако что происходит, когда агенты RL начинают искать лазейки для выполнения задачи? Самоуправляемому транспортному средству необходимо сбалансировать задачу прибытия в определенный пункт назначения с соблюдением правил дорожного движения и защитой человеческих жизней, иначе последствия будут катастрофическими. Неправильная спецификация задачи может привести к тому, что агенты RL воспользуются лазейками, что может иметь негативные последствия в общей среде. DeepMind начал более детально анализировать проблему спецификации задач и предложил понятие согласованных агентов RL, целью которых является достижение наилучшего возможного результата в своей среде.

Мы все сталкивались с примерами последствий плохой спецификации задачи. Вы можете возразить, что царь Мидас плохо определил желаемый результат, когда потребовал, чтобы все, к чему он прикоснется, превратилось в золото. Но давайте будем более прагматичными. Сколько раз мы видели, как люди сокращают путь для выполнения задач под давлением, выходящим за рамки этических, а иногда и правовых норм? В контексте RL агенты могут демонстрировать такое же неустойчивое поведение при попытке обмануть спецификацию задачи.

Спецификация Игры и RL

Наблюдать за тем, как агент RL отклоняется от ожидаемого курса действий для выполнения задачи, — это нечто волшебное. Все мы помним знаменитый 37-й ход во второй партии матча AlphaGo против Ли Седоля, когда AlphaGo сделала ход, который противоречил всем традиционным стратегиям го и в итоге стал решающим ходом в игре. В случае с AlphaGo 37-й ход был отмечен как признак истинного творчества, и он не выходил за рамки правил го, а просто выходил за рамки его традиционных стратегий. Но что происходит, когда агентам RL предоставляется спецификация задачи, которая не совсем соответствует ожидаемому результату в среде?

Давайте используем пример агента RL, которому поручено сложить несколько блоков лего. В этом случае агент RL получает вознаграждение за высоту нижней грани красного блока, когда он не касается блока. Эта спецификация является неполной, так как в ней отсутствует требование о том, чтобы красный блок располагался над синим блоком. Робот в основном игнорирует конечную цель укладки блоков и вместо этого переворачивает красный блок, чтобы достичь большей высоты.

Два примера, AlphaGo и агент лего-стэкинга, иллюстрируют трудности игр со спецификациями. С одной стороны, игра со спецификациями показывает, что агенты RL находят новые решения проблемы. С другой стороны, результаты могут нанести ущерб окружающей среде агента. Первый случай (AlphaGo) демонстрирует креативность RL, а второй (лего-агент) — пример игры со спецификациями.

Проблема игры со спецификациями возрастает с увеличением критичности поставленной задачи. Поиск лазейки для складывания лего не имеет такого же значения, как если бы мы говорили о роботе, выполняющем операцию на людях.

Выровненные агенты RL

Игра в спецификации происходит, когда агент RL использует лазейку в спецификации за счет предполагаемого результата. Эти лазейки обычно возникают из-за неправильных спецификаций предполагаемых задач, а не из-за проблем в алгоритмах RL. В сообщении в блоге, которое DeepMind использовала для обсуждения своего исследования, они определили выровненных агентов RL как модели, которые могут выполнять целевую задачу, достигая намеченного результата в своей среде.

С точки зрения RL спецификация задачи представляет собой комбинацию различных элементов, таких как дизайн среды, метод обучения, функция вознаграждения агента и т. д. Правильная спецификация задачи необходима для определения того, соответствует ли агент целевой задаче или нет. . Если спецификация верна, изобретательность агента приводит к желаемому новому решению. Неправильные спецификации могут привести к плохому поведению, подобному описанному в предыдущем разделе.

Существует множество факторов, которые могут способствовать игре со спецификациями в агентах RL. Исследование DeepMind выявило несколько ключевых:

Формирование вознаграждения

В качестве игровой концепции спецификации формирование вознаграждения происходит, когда агент RL пытается максимизировать промежуточные вознаграждения вместо конечного результата задачи. Рассмотрим следующий пример агента, управляющего лодкой в ​​игре Coast Runners. Намеченная цель состоит в том, чтобы быстро завершить гонку, но, учитывая, что вознаграждение агента было основано на попадании в зеленые блоки, он разработал странную политику, чтобы ходить по кругу и продолжать поражать эти блоки.

Спецификация человеческого результата

Правильное определение результата задачи может быть сложной задачей. Учитывая эту сложность, многие агенты RL полагаются на людей, чтобы обеспечить обратную связь о результатах задачи. Однако такой подход может заставить агентов RL использовать субъективную природу человеческого суждения. Например, агент, выполняющий задачу захвата, научился имитировать результат, закрывая объект с точки зрения камеры.

Ошибки симулятора

Создание симуляций реальных сред — сверхсложная задача, которая регулярно подвержена ошибкам программного обеспечения. Во многих случаях агенты RL могут использовать эти ошибки, чтобы максимизировать свою функцию вознаграждения. Например, моделированный робот научился странному поведению, которое сбивает с толку задачу спецификации ходьбы.

Хотя эти примеры могут показаться забавными, подобное поведение в критически важных средах может иметь пагубные последствия.

DeepMind выявила три ключевые проблемы при разработке спецификаций задач:

  • Как правильно отразить человеческое представление о данной задаче в функции вознаграждения?
  • Как нам избежать ошибок в наших неявных предположениях о предметной области или разработать агентов, которые исправляют ошибочные предположения, а не обманывают их?
  • Как избежать фальсификации наград?

Понимание этих проблем необходимо для разработки согласованных агентов RL.

Хотя общего решения этих проблем не существует, осознание их существования может помочь оптимизировать дизайн среды RL и функции вознаграждения. Проблема игр со спецификациями, вероятно, возрастет по мере того, как модели RL начнут применяться для более сложных и критически важных задач. Как и в случае с человеческим поведением, необходимо установить функциональные, этические и юридические правила, регулирующие поведение агентов RL, чтобы свести к минимуму влияние игр со спецификациями.