В области обучения с подкреплением (RL) спецификации задач обычно разрабатываются экспертами. Обучение на демонстрациях и предпочтениях требует значительного человеческого взаимодействия, а вручную закодированные функции вознаграждения, как известно, сложно определить. Если бы все эти вручную разработанные части и спецификации системы RL можно было бы заменить автоматически обучаемыми компонентами - как это все чаще происходит в других областях искусственного интеллекта - это было бы огромным прорывом.

В новом документе исследовательская группа из ETH Zurich и UC Berkeley предлагает глубокое обучение с вознаграждением путем моделирования прошлого (Deep RLSP), новый алгоритм, который представляет вознаграждение непосредственно как линейную комбинацию функций, изученных в процессе самостоятельного обучения представлению, и позволяет агентам имитировать человеческие действия «назад во времени, чтобы сделать вывод о том, что они должны были сделать».

Исследовательская группа начинает с предпосылки, что данное состояние окружающей среды уже оптимизировано с учетом предпочтений пользователя. Например, если в комнате наблюдается неповрежденная ваза, разумно предположить, что ее пользователь (пользователи) не желает разбивать вазу. Таким образом, исследование пытается смоделировать прошлые траектории, которые привели к наблюдаемому состоянию, вместо того, чтобы вручную указывать, что агент должен делать.

Предлагаемый метод начинается с наблюдаемого состояния и выполняет обратное моделирование во времени для получения градиента, который можно оценить. Он изучает обратную политику и модель обратной динамики, используя контролируемое обучение для выполнения обратного моделирования.

Среда для RL формализована как стохастический конечный автомат с входами (действия, отправленные от агента) и выходами (наблюдения и вознаграждения, отправленные агенту), которые могут быть абстрагированы как процесс марковского принятия решений с конечным горизонтом (MDP), который содержит набор состояний S и набор действий A. Функция перехода T определяет распределение по следующим состояниям с учетом состояния и действия, а функция вознаграждения r определяет цель агента. Политика π указывает, как выбирать действия для данного состояния. Здесь, как и в случае с большинством RL, цель состоит в том, чтобы найти политику π ∗, которая максимизирует ожидаемое совокупное вознаграждение.

Сначала исследователи описывают, как Deep RLSP может изучать функции вознаграждения для многомерных сред, когда предоставляется доступ только к симулятору и наблюдаемому состоянию. Для этого Deep RLSP должен приблизительно соответствовать ожиданиям по прошлым траекториям. Исследователи предполагают, что, если они смогут делать выборки из будущего, разворачиваясь вперед во времени, они также должны иметь возможность выбирать прошлое, откатываясь назад во времени. В этом случае они могут изучить обратную политику и обратную динамику, используя обучение с учителем, и приблизить математическое ожидание в градиенте.

Но этот градиент проблематичен, поскольку он зависит от функции функции. На следующем этапе команда пытается опровергнуть это предположение, используя самостоятельное обучение для изучения функции функции. Они делают это с помощью вариационного автокодировщика, который изучает функцию функции в полностью наблюдаемых средах и напрямую кодирует состояния в представление скрытых функций.

Для частично наблюдаемых сред исследователи применяют модели повторяющегося пространства состояний (RSSM), которые позволяют состояниям кодировать историю, так что частично наблюдаемый MDP может быть преобразован в скрытый MDP с функцией функции идентификации. Таким образом, они могут затем вычислять градиенты непосредственно в этом скрытом MDP.

Объединение всех этих компонентов вместе формирует алгоритм Deep RLSP.

Команда использовала физический симулятор MuJoCo (Multi-Joint Dynamics with Contact) в своих экспериментах, чтобы показать, что Deep RLSP можно масштабировать до сложных, непрерывных, многомерных сред. Они выбрали три среды из тренажерного зала Open AI - перевернутый маятник, полугепард и прыгун - и сравнили Deep RLSP с базовым уровнем GAIL (Generative Adversarial Imitation Learning).

Результаты показывают, что хотя в GAIL в качестве входных данных были включены как состояния, так и действия, он мог изучить только действительно хорошую политику для (очень простой) среды перевернутого маятника. Тем временем Deep RLSP обеспечивает разумное поведение во всех средах с использованием только состояния в качестве входных данных.

Исследование показывает, что изучение полезных политик с помощью нейронных сетей не обязательно требует значительных ручных усилий человека. Предлагаемый Deep RLSP освобождает исследователей от этого бремени за счет извлечения «бесплатной» информации, присутствующей в текущем состоянии среды.

Статья Учимся делать, моделируя прошлое, находится на arXiv.

Автор: Геката Хе | Редактор: Майкл Саразен

Мы знаем, что вы не хотите пропустить какие-либо новости или научные открытия. Подпишитесь на нашу популярную рассылку Synced Global AI Weekly, чтобы получать еженедельные обновления AI.