1. Масштабируемая коммуникация для многоагентного обучения с подкреплением через механизм электронной почты на основе Transformer(arXiv)

Автор: Сюйдун Го, Дамин Ши, Вэньхуэй Фань

Вывод:Общение может значительно улучшить сотрудничество в многоагентном обучении с подкреплением (MARL), особенно для задач с частичным наблюдением. Однако существующие работы либо транслируют сообщения, ведущие к избыточности информации, либо изучают целевую коммуникацию, моделируя всех других агентов как цели, что не масштабируется при изменении количества агентов. В этой работе, чтобы решить проблему масштабируемости связи MARL для частично наблюдаемых задач, мы предлагаем новую структуру механизма электронной почты на основе трансформатора (TEM). Агенты используют локальную связь для отправки сообщений только тем, которые можно наблюдать без моделирования всех агентов. Вдохновленные человеческим сотрудничеством с пересылкой электронной почты, мы разрабатываем цепочки сообщений для пересылки информации для сотрудничества с агентами за пределами диапазона наблюдения. Мы представляем Transformer для кодирования и декодирования цепочки сообщений для выборочного выбора следующего получателя. Эмпирически TEM превосходит базовые показатели по нескольким совместным тестам MARL. Когда количество агентов варьируется, TEM поддерживает превосходную производительность без дополнительного обучения.

2.Рекуррентность на основе внимания для многоагентного обучения с подкреплением в условиях неопределенности состояния(arXiv)

Автор:homy Phan, Fabian Ritz, Jonas Nüßlein, Michael Kölle, Thomas Gabor, Claudia Linnhoff-Popien

Аннотация: Неопределенность состояния представляет серьезную проблему для децентрализованной координации, когда несколько агентов действуют в соответствии с зашумленными наблюдениями без какого-либо доступа к информации других агентов. Централизованное обучение для децентрализованного выполнения (CTDE) — это многоагентная парадигма обучения с подкреплением, которая использует глобальную информацию для изучения функции централизованного значения для выработки скоординированных многоагентных политик. CTDE на основе состояний стал популярным в многоагентных исследованиях благодаря значительному прогрессу в StarCraft Multi-Agent Challenge (SMAC). Однако сценарии SMAC менее подходят для оценки неопределенности состояния из-за детерминированных наблюдений и низкой дисперсии начальных состояний. Кроме того, CTDE на основе состояния в значительной степени игнорирует неопределенность состояния относительно. децентрализация агентов и наблюдений, таким образом, возможно, менее эффективна в более общих условиях. В этой статье мы обращаемся к неопределенности состояния и представляем MessySMAC, модифицированную версию SMAC со стохастическими наблюдениями и более высокой дисперсией в начальных состояниях, чтобы обеспечить более общий и настраиваемый эталон. Затем мы предлагаем вложения повторения на основе внимания в многоагентное обучение (AERIAL) для аппроксимации функций ценности с учетом неопределенности состояния. AERIAL заменяет истинное состояние в CTDE представлением в памяти всех повторяющихся функций агентов, которые обрабатываются механизмом самоконтроля. Мы оцениваем AERIAL в Dec-Tiger, а также в различных картах SMAC и MessySMAC и сравниваем результаты с CTDE на основе состояния. Мы также оцениваем устойчивость AERIAL и CTDE на основе состояния к различным конфигурациям неопределенности состояния в MessySMAC.