"Машинное обучение"

Что такое иерархическое обучение с подкреплением?

Этот вариант обучения с подкреплением отлично подходит для решения сложных задач путем разложения на небольшие задачи.

Недавно я начал выпускать образовательный информационный бюллетень, посвященный ИИ, на который уже подписано более 80 000 человек. TheSequence - это информационный бюллетень, ориентированный на машинное обучение (то есть без рекламы, новостей и т. Д.), На чтение которого уходит 5 минут. Цель состоит в том, чтобы держать вас в курсе проектов, исследовательских работ и концепций машинного обучения. Пожалуйста, попробуйте, подписавшись ниже:



Люди обладают прекрасной способностью повторно использовать предыдущие знания при овладении новыми навыками. Просто выполните следующие действия, чтобы выучить новый рецепт приготовления или новый режим тренировок. Инстинктивно мы разбиваем эти сложные задачи на тысячи небольших задач, которые могут помочь нам эффективно овладеть новым предметом. Напротив, алгоритмы машинного обучения без учителя, такие как обучение с подкреплением, обычно требуют выполнения тысяч небольших задач с нуля, что невероятно дорого с вычислительной точки зрения. Возможность повторного использования знаний в связанных задачах в модели обучения с подкреплением может значительно повысить ее эффективность при решении сложных задач.

Проблема повторного использования знаний в модели обучения с подкреплением выходит за рамки самой возможности повторного использования. Такие дисциплины, как ансамблевое или трансференционное обучение, обеспечивают надежную архитектуру для повторного использования знаний в различных моделях. Однако эти подходы работают только в том случае, если разные модели используют одну и ту же политику обучения. Если мы разложим проблемы обучения с подкреплением на распределение связанных задач, мы, вероятно, обнаружим, что обмен информацией между различными задачами неэффективен, поскольку они работают в соответствии с разными политиками обучения. Другими словами, повторное использование знаний в обучении с подкреплением - это не только вопрос разложения проблемы на небольшие подзадачи, но также декомпозиция политики обучения на другие политики подобучения.

Два года назад исследователи из OpenAI опубликовали статью, в которой предлагается метод обучения с подкреплением для освоения новых задач с использованием иерархий связанных задач. Новая методика, получившая название Общие иерархии метаобучения, основана на относительно неизвестной области глубокого обучения, называемой иерархическим обучением с подкреплением.

Иерархическое обучение с подкреплением

Иерархическое обучение с подкреплением (HRL) - это относительно новая дисциплина в пространстве глубокого обучения, которая моделирует проблемы обучения как иерархию связанных подзадач. Рассмотрим задачу агента, пытающегося научиться перемещаться по лабиринту, чтобы получить простую награду.

Проблема с этим сценарием заключается в том, что он может иметь множество оптимальных политик обучения для одной и той же функции оптимального значения, что может привести к очень дорогостоящим вычислениям для традиционной модели обучения с подкреплением. HRL моделирует проблему как марковскую проблему принятия решений (MDP) для оптимизации процесса изучения оптимальной политики.

Большинство алгоритмов HRL сосредоточены на изучении одной задачи и оказались неэффективными при тестировании в многозадачных средах, поскольку им было трудно справиться с несколькими политиками одновременного обучения. Это та область, где сияет метод HRL OpenAI.

Общие иерархии метаобучения

Идея, лежащая в основе метода общих иерархий метаобучения (MLSH) OpenAI, заключается в построении иерархии политик обучения, которые можно использовать для абстрагирования большого количества низкоуровневых задач на небольшое количество задач высокого уровня. Используя MLSH, агент изучает иерархическую политику, в которой главная политика переключается между набором подполитик. Мастер выбирает действие каждые N временных шагов, где может потребоваться N = 200. Подполитика, выполняемая для N временных шагов, составляет действие высокого уровня. Например, для задач навигации подполитики соответствуют ходьбе или ползанию в разных направлениях.

Первым шагом MLSH является обучение основной политики. На этом этапе любое обновление вознаграждения за действие зависит только от действия основной политики и общего вознаграждения. После обучения вспомогательных политик они будут рассматривать действия основной политики как часть набора наблюдений, что приведет к более эффективным результатам.

Основное различие между MLSH и традиционными методами HRL заключается в том, что последние работают с политиками, разработанными вручную. MLSH, с другой стороны, использует мета-обучение для автоматического обнаружения иерархической структуры посредством взаимодействия с окружающей средой. С точки зрения метаобучения MLSH определяет хорошую иерархию как такую, которая быстро достигает высокой награды при обучении невидимым задачам. Следовательно, алгоритм MLSH нацелен на изучение подполитик, которые позволяют быстро обучаться решению ранее невидимых задач.

MLSH в действии

Команда OpenAI протестировала метод общих иерархий метаобучения (MLSH) на различных проблемах навигации. Например, в среде AntMaze робот Муравей Муджоко помещается в 9 различных лабиринтов и должен перемещаться от начальной позиции к цели. Алгоритм MLSH может успешно находить разнообразный набор подполитик, которые можно упорядочить вместе для решения задач лабиринта исключительно посредством взаимодействия с окружающей средой.

MLSH сочетает в себе иерархическое обучение с подкреплением (HRL) и метаобучение в единой модели, способной изучать сложные задачи, абстрагируя проблему в небольшом количестве политик обучения. Команда OpenAI открыла исходный код базовой реализации MLSH на GitHub, что позволит разработчикам экспериментировать с этой новой техникой. Работа над MLSH в основном экспериментальная, но она содержит много интересных идей, которые можно использовать в приложениях для обучения с подкреплением.