Как Deep Mind контролирует агентов обучения с подкреплением, чтобы они не становились «слишком умными»

Игра со спецификациями — это вызов в обучении с подкреплением.

Недавно я запустил образовательный информационный бюллетень, посвященный ИИ, у которого уже более 125 000 подписчиков. TheSequence — это информационный бюллетень, ориентированный на машинное обучение, без BS (то есть без шумихи, без новостей и т. д.), чтение которого занимает 5 минут. Цель состоит в том, чтобы держать вас в курсе проектов машинного обучения, научных работ и концепций. Пожалуйста, попробуйте, подписавшись ниже:

TheSequence
Лучший источник информации о разработках в области машинного обучения, искусственного интеллекта и данных…thesequence.substack.com

Обучение с подкреплением (RL) — одна из самых чистых форм накопления знаний в области искусственного интеллекта (ИИ). В конце концов, есть что-то волшебное в программах, которые могут накапливать знания, естественным образом взаимодействуя с окружающей средой для выполнения конкретной задачи. Однако что происходит, когда агенты RL начинают искать лазейки для выполнения задачи? Самоуправляемому транспортному средству необходимо сбалансировать задачу прибытия в определенный пункт назначения с соблюдением правил дорожного движения и защитой человеческих жизней, иначе последствия будут катастрофическими. Неправильная спецификация задачи может привести к тому, что агенты RL воспользуются лазейками, что может иметь негативные последствия в общей среде. DeepMind начал более детально анализировать проблему спецификации задач и предложил понятие согласованных агентов RL, целью которых является достижение наилучшего возможного результата в своей среде.

Мы все сталкивались с примерами последствий плохой спецификации задачи. Вы можете возразить, что царь Мидас плохо определил желаемый результат, когда потребовал, чтобы все, к чему он прикоснется, превратилось в золото. Но давайте будем более прагматичными. Сколько раз мы видели, как люди сокращают путь для выполнения задач под давлением, выходящим за рамки этических, а иногда и правовых норм? В контексте RL агенты могут демонстрировать такое же неустойчивое поведение при попытке обмануть спецификацию задачи.

Спецификация Игры и RL

Наблюдать за тем, как агент RL отклоняется от ожидаемого курса действий для выполнения задачи, — это нечто волшебное. Все мы помним знаменитый 37-й ход во второй партии матча AlphaGo против Ли Седоля, когда AlphaGo сделала ход, который противоречил всем традиционным стратегиям го и в итоге стал решающим ходом в игре. В случае с AlphaGo 37-й ход был отмечен как признак истинного творчества, и он не выходил за рамки правил го, а просто выходил за рамки его традиционных стратегий. Но что происходит, когда агентам RL предоставляется спецификация задачи, которая не совсем соответствует ожидаемому результату в среде?

Давайте используем пример агента RL, которому поручено сложить несколько блоков лего. В этом случае агент RL получает вознаграждение за высоту нижней грани красного блока, когда он не касается блока. Эта спецификация является неполной, так как в ней отсутствует требование о том, чтобы красный блок располагался над синим блоком. Робот в основном игнорирует конечную цель укладки блоков и вместо этого переворачивает красный блок, чтобы достичь большей высоты.

Два примера, AlphaGo и агент лего-стэкинга, иллюстрируют трудности игр со спецификациями. С одной стороны, игра со спецификациями показывает, что агенты RL находят новые решения проблемы. С другой стороны, результаты могут нанести ущерб окружающей среде агента. Первый случай (AlphaGo) демонстрирует креативность RL, а второй (лего-агент) — пример игры со спецификациями.

Проблема игры со спецификациями возрастает с увеличением критичности поставленной задачи. Поиск лазейки для складывания лего не имеет такого же значения, как если бы мы говорили о роботе, выполняющем операцию на людях.

Выровненные агенты RL

Игра в спецификации происходит, когда агент RL использует лазейку в спецификации за счет предполагаемого результата. Эти лазейки обычно возникают из-за неправильных спецификаций предполагаемых задач, а не из-за проблем в алгоритмах RL. В сообщении в блоге, которое DeepMind использовала для обсуждения своего исследования, они определили выровненных агентов RL как модели, которые могут выполнять целевую задачу, достигая намеченного результата в своей среде.

С точки зрения RL спецификация задачи представляет собой комбинацию различных элементов, таких как дизайн среды, метод обучения, функция вознаграждения агента и т. д. Правильная спецификация задачи необходима для определения того, соответствует ли агент целевой задаче или нет. . Если спецификация верна, изобретательность агента приводит к желаемому новому решению. Неправильные спецификации могут привести к плохому поведению, подобному описанному в предыдущем разделе.

Существует множество факторов, которые могут способствовать игре со спецификациями в агентах RL. Исследование DeepMind выявило несколько ключевых:

Формирование вознаграждения

В качестве игровой концепции спецификации формирование вознаграждения происходит, когда агент RL пытается максимизировать промежуточные вознаграждения вместо конечного результата задачи. Рассмотрим следующий пример агента, управляющего лодкой в игре Coast Runners. Намеченная цель состоит в том, чтобы быстро завершить гонку, но, учитывая, что вознаграждение агента было основано на попадании в зеленые блоки, он разработал странную политику, чтобы ходить по кругу и продолжать поражать эти блоки.

Спецификация человеческого результата

Правильное определение результата задачи может быть сложной задачей. Учитывая эту сложность, многие агенты RL полагаются на людей, чтобы обеспечить обратную связь о результатах задачи. Однако такой подход может заставить агентов RL использовать субъективную природу человеческого суждения. Например, агент, выполняющий задачу захвата, научился имитировать результат, закрывая объект с точки зрения камеры.

Ошибки симулятора

Создание симуляций реальных сред — сверхсложная задача, которая регулярно подвержена ошибкам программного обеспечения. Во многих случаях агенты RL могут использовать эти ошибки, чтобы максимизировать свою функцию вознаграждения. Например, моделированный робот научился странному поведению, которое сбивает с толку задачу спецификации ходьбы.

Хотя эти примеры могут показаться забавными, подобное поведение в критически важных средах может иметь пагубные последствия.

DeepMind выявила три ключевые проблемы при разработке спецификаций задач:

Как правильно отразить человеческое представление о данной задаче в функции вознаграждения?
Как нам избежать ошибок в наших неявных предположениях о предметной области или разработать агентов, которые исправляют ошибочные предположения, а не обманывают их?
Как избежать фальсификации наград?

Понимание этих проблем необходимо для разработки согласованных агентов RL.

Хотя общего решения этих проблем не существует, осознание их существования может помочь оптимизировать дизайн среды RL и функции вознаграждения. Проблема игр со спецификациями, вероятно, возрастет по мере того, как модели RL начнут применяться для более сложных и критически важных задач. Как и в случае с человеческим поведением, необходимо установить функциональные, этические и юридические правила, регулирующие поведение агентов RL, чтобы свести к минимуму влияние игр со спецификациями.