Мастерство ИИ в сложных играх, таких как Go и StarCraft, повысило интерес исследователей к обучению с подкреплением (RL), когда агенты, которым предоставлены только правила игры, участвуют в самостоятельной игре, чтобы поднять свою производительность до человеческого уровня и выше. Но как создать функции вознаграждения для реальных задач, в которых отсутствует четко определенное условие выигрыша? Войдите в Adversarial Imitation Learning (AIL), структуру для непрерывного контроля, которая в последние годы набирает популярность для решения таких сложных задач.

Был предложен и реализован ряд улучшений алгоритма AIL, таких как изменение функции потерь дискриминатора или переключение с действующих на политику агентов на внеполитических, для повышения производительности изученных политик и сложности выборки алгоритма. Однако устойчивость и надежность этих улучшенных алгоритмов AIL остаются неопределенными, поскольку их компоненты, повышающие производительность, редко тестировались в строгих эмпирических исследованиях, и большинство исследователей имеют скудные знания или понимание высокоуровневых алгоритмических опций или деталей низкоуровневой реализации. .

Чтобы решить эти проблемы, команда Google Brain недавно провела всестороннее эмпирическое исследование более пятидесяти вариантов общей структуры AIL. Они исследовали влияние этого выбора на крупномасштабные (›500 000 обученных агентов) задачи непрерывного управления, чтобы предоставить практические идеи и рекомендации для разработки новых и эффективных алгоритмов AIL.

Хотя проектирование функций вознаграждения в стиле RL может быть трудным или невозможным для многих реальных приложений, простая демонстрация правильного поведения для копирования агента - это легко и дешево - предполагая, что имитационное обучение может быть ключом, который открывает следующий этап сложных решение задач.

В последние годы AIL стал одним из самых популярных фреймворков для имитационного обучения в непрерывном управлении. Черпая вдохновение из Inverse RL и Generative Adversarial Networks (GAN), модели AIL могут обучаться поведению, аналогичному поведению опытного учителя, сохраняя при этом способность свободно взаимодействовать со своей средой.

Были предложены различные варианты для повышения производительности исходного алгоритма AIL, но до сих пор не проводилось тщательного изучения их относительных эффектов в контролируемых условиях или анализах абляции по этим вариантам. В статье Что важно для обучения имитации состязательности? команда Google Brain исследует выбор высокого и низкого уровня в отношении глубины и проводит всестороннее исследование их влияния на производительность алгоритма AIL.

Команда резюмирует свой вклад следующим образом:

  1. Реализуйте универсальный алгоритм AIL с широкими возможностями настройки с различными осями изменения (›50 гиперпараметров (HP)), включая 4 различных алгоритма RL и 7 схем регуляризации для дискриминатора.
  2. Проведите масштабное (›500 тыс. Обученных агентов) экспериментальное исследование по 10 задачам с непрерывным контролем.
  3. Анализируйте результаты экспериментов, чтобы предоставить практические идеи и рекомендации для разработки новых и использования существующих алгоритмов AIL.

Исследователи сосредоточены на задачах непрерывного управления и проводят свои эксперименты в пяти широко используемых средах из OpenAI Gym: HalfCheetah-v2, Hopper-v2, Walker2d-v2, Ant-v2 и Humanoid-v2; и три среды управления от Adroit: pen-v0, door-v0 и hammer-v0. Они рассматривают условный 95-й процентиль и распределение выбора в рамках конфигураций первых пяти процентов для каждого варианта.

Команда определяет основные результаты своих экспериментов следующим образом:

  1. Что важно для обучения агентов? Функция вознаграждения за состязательное обучение с обратным подкреплением (AIRL) лучше всего подходит для синтетических демонстраций, а использование явного поглощающего состояния имеет решающее значение в средах с эпизодами переменной продолжительности. Нормализация наблюдения также сильно влияет на производительность. Использование алгоритма RL вне политики необходимо для хорошей сложности выборки при воспроизведении экспертных данных, а предварительное обучение с клонированием поведения (BC) лишь незначительно улучшает производительность.
  2. Что важно для обучения дискриминатору? Дискриминаторы MLP работают наравне или лучше, чем архитектуры, специфичные для AIL, а явная регуляризация дискриминатора важна только в более сложных средах. Спектральная норма в целом является лучшим регуляризатором, но стандартные регуляризаторы из контролируемого обучения часто могут работать наравне. Оптимальная скорость обучения дискриминатора может быть на 2–2,5 порядка ниже, чем у агента RL.
  3. Являются ли синтетические демонстрации хорошим показателем для человеческих данных? Человеческие демонстрации значительно отличаются от синтетических демонстраций, а обучение на человеческих демонстрациях больше выигрывает от регуляризации дискриминатора и может работать лучше с различными входными данными дискриминатора и функциями вознаграждения, чем сгенерированные RL демонстрации.

В целом, глубокий анализ аспектов структуры AIL, таких как архитектура дискриминатора, обучение и регуляризация, а также варианты, связанные с обучением агентов, дает ценные сведения о том, как лучше всего разрабатывать и использовать новые алгоритмы AIL.

Статья Что важно для обучения имитации состязательности? находится на arXiv.

Автор: Геката Хе | Редактор: Майкл Саразен, Чейн Чжан

Мы знаем, что вы не хотите пропустить какие-либо новости или научные открытия. Подпишитесь на нашу популярную рассылку Synced Global AI Weekly, чтобы получать еженедельные обновления AI.