"Искусственный интеллект"

Новая игра DeepMind для улучшения сотрудничества в многоагентных моделях

Hidden Agenda — это игра с социальным поведением, оптимизированная для обеспечения совместного поведения в моделях обучения с подкреплением.

Недавно я запустил образовательный информационный бюллетень, посвященный ИИ, у которого уже более 100 000 подписчиков. TheSequence — это информационный бюллетень, ориентированный на машинное обучение, без BS (то есть без шумихи, без новостей и т. д.), чтение которого занимает 5 минут. Цель состоит в том, чтобы держать вас в курсе проектов машинного обучения, научных работ и концепций. Пожалуйста, попробуйте, подписавшись ниже:



Кооперация — один из самых сложных элементов в многоагентных моделях, таких как модели, основанные на методах обучения с подкреплением. Динамика эффективного сотрудничества в многоагентной среде имеет два основных измерения:

1) Какие уровни сотрудничества необходимы агенту для эффективной работы?

2) С какими агентами лучше сотрудничать?

Хотя существует множество количественных методов, которые можно использовать для решения первого вопроса, второй остается в значительной степени неизученным. Недавно исследователи из DeepMind и Гарвардского университета опубликовали статью, предлагающую Hidden Agenda, двухмерную игру с социальной дедукцией, направленную на улучшение динамики сотрудничества в многоагентных моделях.

Задача сотрудничества в многоагентных моделях очень сложна, поскольку зависит от механики каждого агента в механизме сотрудничества. Различные агенты ML могут иметь общие цели, но часто имеют противоречивые цели, которые невидимы для окружающей среды и, следовательно, трудно поддаются количественной оценке. Эта проблема становится еще более очевидной при работе в несовершенной информационной среде. Игры с социальной дедукцией были популярным механизмом для моделирования сотрудничества в неопределенных условиях. Суть игры с социальной дедукцией состоит в том, чтобы помочь игрокам вычислить скрытые цели друг друга.

Hidden Agenda — это игра на социальную дедукцию, в которой участвуют несколько игроков из двух основных групп:

я. Товарищи по команде: команда с численным преимуществом. Их цель — заправить свой корабль топливными элементами, разбросанными по окружающей среде.

ii. Самозванцы: команда с информационным преимуществом. Их цель — помешать товарищам по команде достичь своих целей, заморозив их замораживающим лучом ближнего действия.

Игра состоит из комнат, содержащих энергетические топливные элементы, и центральной комнаты, где эти элементы можно хранить. Скрытая повестка дня организована в два этапа:

a) Этап ситуации: на этом этапе агенты могут перемещаться в окружающей среде, собирая топливные элементы.

b) Этап голосования. На этом этапе агенты могут проводить открытые голосования и наблюдать за голосами других агентов на предыдущем временном шаге.

Наблюдая за голосованием остальных популяций, агенты могут начать адаптировать свое кооперативное поведение. Для обучения и оценки DeepMind использовала стандартную асинхронную архитектуру «актор-критик» (A3C). Архитектура основана на двухуровневой CNN, за которой следует сеть прямой связи на основе модели MLP. Выходные данные MLP передаются на уровень LSTM. Кроме того, архитектура включает уровень для оценки правильных политик, используемых агентами.

Hidden Agenda — очень интересная игровая среда, обеспечивающая совместное поведение в многоагентных моделях. По определению, Скрытая повестка дня включает в себя использование скрытых мотивов (голосование) и необходимость включения этой информации в политику агента. Мы должны увидеть, как Скрытые программы станут важным строительным блоком в обучении DeepMind мультиагентным моделям обучения с подкреплением.