Бенчмарк AlphaStar от DeepMind улучшает автономный агент RL с 90% процентом побед по сравнению с SOTA AlphaStar…

StarCraft II — одна из самых сложных сред для обучения с подкреплением (RL), она требует от агентов RL разумного стратегического планирования на долгосрочную перспективу с выполнением в реальном времени.

В то время как онлайн-алгоритмы обучения с подкреплением (RL) добились больших успехов за счет обучения в сложных условиях, для большинства реальных приложений агентам RL требуется обучение в автономном режиме, что требует более сложного автономного эталонного теста RL для обучения агентов.

В новой статье AlphaStar Unplugged: крупномасштабное автономное обучение с подкреплением исследовательская группа DeepMind представляет AlphaStar Unplugged, беспрецедентно сложный тест крупномасштабного автономного обучения с подкреплением, в котором используется автономный набор данных из StarCraft II для агентов RL. обучения, а его базовый автономный агент достигает 90% побед по сравнению с предыдущим современным агентом под наблюдением AlphaStar.

Команда рассматривает StarCraft II как игру для двух игроков, которая сочетает в себе высокоуровневую дальновидность и быстрое и деликатное управление юнитами. Он подходит для сравнительного анализа алгоритмов обучения с подкреплением в автономном режиме из-за большого количества повторов для обучающих агентов и простого метода оценки путем игры против людей.

Предлагаемый AlphaStar Unplugged создан на основе среды обучения StarCraft II и связанных с ней игровых повторов. Исследователи резюмируют свой основной вклад в создание сложного автономного теста RL следующим образом:

Настройка обучения. Мы фиксируем набор данных и набор правил для обучения, чтобы иметь справедливое сравнение между методами.
Показатель оценки. Мы предлагаем набор показателей для измерения производительности агентов.
Базовые агенты. Мы предоставляем ряд хорошо настроенных базовых агентов.
Открытый исходный код. Создание агента, который хорошо работает в StarCraft II, — это огромная инженерная задача. Мы предоставляем хорошо настроенный агент клонирования поведения, который образует основу для всех агентов, представленных в этой статье.

Бенчмарк AlphaStar от DeepMind улучшает автономный агент RL с 90% процентом побед по сравнению с SOTA AlphaStar…

Вопросы по теме