Коммуникация является одним из компонентов MARL и самой активной областью исследований, так как она может повлиять на конечную производительность агентов и напрямую влияет на координацию или переговоры. Эффективное общение необходимо для успешного взаимодействия, решения проблем сотрудничества, координации и переговоров между несколькими агентами.

Большинство исследований в многоагентных системах были направлены на удовлетворение коммуникационных потребностей агента: какую информацию отправлять, когда и кому, и в результате стратегии, оптимизированные для конкретного приложения, для которого они приняты. Известные протоколы связи, такие как Cheap talk, можно рассматривать как «действие посредством разговора», в котором разговор предшествует действию. К другим относятся «разговоры в действии», когда один из агентов имеет неполную информацию и означает действия, говорящие громче, чем слова.

Мы рассмотрим, как разные подходы к изучению протоколов связи с глубокими нейронными сетями могут помочь, и некоторые новые идеи в трех разных статьях, одна в качестве базовой, а две другие будут представлены на ICML 2019:

1) Обучение общению с помощью глубокого многоагентного обучения с подкреплением на бумаге: Идентификация сообщений как протоколов связи и их использование в сценарии Q-Learning, в котором они обучаются и влияют на выбор действия. Создан из подразделения DRU, которое может обогатить обучающий сигнал и сделать общение доступным для обмена и обучения между агентами.

2) Социальное влияние как внутренняя мотивация для многоагентного глубокого обучения с подкреплением бумага: представляет нововведение децентрализованного обучения, которое ранее рассматривалось только децентрализованным исполнением и новыми функциями вознаграждения, метриками и топологиями, приближающими коммуникационная проблема

3) TARMAC: адресная коммуникация для бумаги MARL, в которой исследуются преимущества таргетированной, а также многоступенчатой ​​коммуникации. Цель состоит в том, чтобы предложить возможное решение для сложных стратегий сотрудничества с настраиваемым механизмом внимания.

Одна из ключевых концепций здесь - централизованный / децентрализованный компромисс между обучением и исполнением, который раскрывается в различных документах. Базовый план - найти централизованное обучение - совместное использование параметров - с децентрализованным исполнением - каждый агент выполняет свои выходные данные независимо - но это меняется в зависимости от бумаги и эксперимента.

Давайте начнем с статьи «Обучение общению с помощью глубокого многоагентного RL» от 2016 года, которая предлагает первую основу для понимания использования нейронных сетей в MARL.

1) Обучение общению с помощью глубокого многоагентного обучения с подкреплением

Обучение взаимодействию с помощью глубокого многоагентного обучения с подкреплением делает шаг к тому, как агенты могут использовать машинное обучение для автоматического обнаружения протоколов связи в совместной настройке и что глубокое обучение может предложить для этого, поскольку глубокие нейронные сети используются для изучения протоколов связи в мультиагентные системы с частичной наблюдаемостью, использующие два разных подхода: усиленное межагентное обучение (RIAL) и дифференцируемое межагентное обучение (DIAL), основная разница в том, как градиенты текут в цикле обучения, делая шаг к дифференцируемая коммуникация: в то время как RIAL можно обучить от начала до конца внутри каждого агента, DIAL можно обучить от начала до конца между агентами.

  • РИАЛ. Этот протокол связи и выбора действий включает несколько агентов в временных шагах t и t + 1, в которых сообщения обучаются и используются для процесса выбора действия. RIAL - это коммуникация на основе RL, которая сочетает в себе глубокие рекуррентные Q-сети с независимым Q-обучением для выбора коммуникации действий, что означает, что сеть Qa разделена на Qau - для среды - и Qam - для коммуникации действий - для уменьшения сложности выбора действий.

Весь цикл обучения включает временные шаги t и t + 1, а градиенты проходят только через Q-сеть одного агента. RIAL можно настроить для обслуживания параметров, уменьшив количество обучающих параметров. Однако в RIAL агенты не дают обратной связи о своих коммуникационных действиях.

  • DIAL использует ту же идею, что и RIAL, но изменяет способ вычисления и выполнения градиентного потока, поскольку градиенты передаются от одного агента к другому по каналу связи.

На временном шаге t выходом C_net Agent 1 являются как действия Q для среды, так и сообщение m. Вот разница: вместо того, чтобы быть введенным в селектор действий, он подается в блок дискретизации / регуляризации DRU (ma), который действует в централизованном обучении с регуляризацией и дискретизацией с децентрализованным выполнением: ситуация, в которой несколько агентов могут обучаться одновременно. и самостоятельно выполнять свои действия.

2) Социальное влияние как внутренняя мотивация многоагентного обучения с подкреплением

Представляет нововведение децентрализованного обучения, которое ранее было замечено только децентрализованным исполнением. Этот метод представляет собой присущее агенту вознаграждение за влияние на действия других агентов, создавая возможные альтернативы событиям, которые уже произошли. Эти действия, которые можно было бы предпринять, если бы они показали лучший результат, вознаграждаются. Таким образом, в этом случае коммуникация имеет прямое влияние на MA-MDP. В конечном итоге, на более высоком абстрактном уровне, эта статья посвящена тому, как влияние может повлиять на координацию и коммуникацию.

Идея этого подхода выходит за рамки классической литературы о «делании, разговаривая» или «говорящем действием», и предполагаю, что он пытается пойти на «предположение, наблюдая, что другой делает или может сделать» или, в конечном счете, «предположение, наблюдая, что другой мог бы сделать» высокоуровневая идея.

В этом случае каждый агент оснащен обученной нейронной сетью, которая представляет модель других агентов -MOA- в конкурентной или совместной настройке. Действия всех агентов объединяются, и каждый агент получает свое вознаграждение, которое может зависеть от действий других агентов.

Статья делится на три разных эксперимента: базовое влияние, влиятельная коммуникация и моделирование других агентов. Это разделение дает несколько разных экспериментов, работающих с двумя разными средами: Cleanup и Harvest.

2A) Базовое социальное влияние

В первом эксперименте по базовому влиянию агент A3C сравнивается с сокращенной версией настройки влияния: в длиннохвостом эксперименте показаны многообещающие результаты, в которых была установлена ​​составная награда - влияние + окружающая среда - вознаграждение. В этом случае рассчитывается новый набор вероятностей с другими действиями, выборка контрфактических действий с использованием централизованного обучения и предположения, что влияние является однонаправленным.

КЛЮЧ: базовое влияние представляет собой комбинированное вознаграждение за внешнее или экологическое воздействие и вознаграждение за причинное влияние.

2B) Влиятельная коммуникация

После получения результатов базового эксперимента по социальному влиянию, сообщение - символ дискретной коммуникации - обучается для получения политик. Этот влиятельный протокол связи работает на разных уровнях:

С одной стороны, два руководителя обучаются двум различным политикам и функциям ценностей; один для окружающей среды, а другой - как спекулятивная политика для передачи символов связи.

В Influential communication состояние передается в свертку и 2 полностью связанных слоя. Последний LSTM с коммуникационным сообщением также получает коммуникационное сообщение из предыдущего временного шага.

Vm и π m изменили немедленное вознаграждение агента в виде суммы e - экологического вознаграждения- и c -причинное влияние вознаграждение-.

КЛЮЧ: в Influential communication обучаются 2 разные политики: одна для среды, а другая - для протокола спекулятивного / рефлексивного взаимодействия.

Первый подход к измерению эффективности коммуникации может позволить вам подумать, что мы будем измерять лучшую производительность с точки зрения вознаграждения за выполнение задачи, что в принципе верно на высоком уровне. Тем не менее, в статье представлены новые когнитивные метрики в влиятельной коммуникации для анализа коммуникативного поведения и измерения его качества:

  • Согласованность динамика [0,1]: согласованность или доверие к агенту говорящего, излучающему определенный символ, когда он выполняет определенное действие. Цель метрики - измерить степень соответствия 1: 1 между действиями говорящего и коммуникационным сообщением говорящего. Точнее, он оценивает энтропию вероятности как действий с учетом сообщений, так и сообщений с учетом действий.
  • Мгновенная координация (IC) измеряет, насколько хорошо агенты координируют свои действия при общении. Он работает на двух уровнях:
  • ИС символа / действия измеряет взаимную информацию между сообщением влиятельного лица и влиянием на следующее действие. Влияние через общение происходит, когда агент решает изменить свое действие на основании сообщения другого агента, и в такие моменты этот показатель очень высок.
  • Action / Action IC измеряет взаимную информацию между действием влиятельного лица и влиянием следующего действия.

Здесь у вас есть несколько пунктов и уроки, которые можно извлечь отсюда.

  • Влияние невелико во времени
  • Слушатели выборочно слушают говорящего только тогда, когда это полезно
  • Агенты, на которые больше всего влияют, также получают более высокое индивидуальное экологическое вознаграждение

Результаты некоторых экспериментов показывают, что слушатели выборочно слушают говорящего только тогда, когда это выгодно, и что агенты, на которые больше всего влияют, также получают более высокую индивидуальную экологическую награду. Кроме того, сообщение должно содержать информацию, которая помогает слушателю максимизировать его собственное экологическое вознаграждение.

2C) Влиятельная коммуникация против модели других агентов

MOA представляет новую топологию. Вот нововведение: достижение независимого обучения за счет оснащения каждого агента собственной внутренней моделью других агентов и централизованного обучения. MOA представляет собой набор слоев, который идет после свертки и предсказывает все следующие действия агента с учетом его предыдущего.

После обучения его можно использовать для вычисления вознаграждения за социальное влияние.

По мере того, как среда становится более сложной, а коммуникационное сообщение иным, топология нейронных сетей может быть другой, хотя в данном случае она остается прежней.

КЛЮЧ: две нейронные сети вычисляют экологическую политику и модель вероятности действий

Эта статья хороша не только для новых идей, которые она приносит, но и для коммуникации и эволюции через эксперименты, что позволяет узнать больше о исследовательском подходе. Результаты показывают лучшую производительность протокола связи на основе модели Influential.

3) TARMAC: Целевое многоагентное взаимодействие

В этой статье устанавливается совместная мультиагентная настройка, ключевую роль в которой играет эффективный протокол связи. Сосредоточившись на целенаправленном общении с глубоким обучением с подкреплением, агенты изучают целевые взаимодействия - какие сообщения отправлять и кому их отправлять, - что обеспечивает более гибкую стратегию сотрудничества в сложных средах.

Что касается адресных коммуникаций, в документе говорится о направлении определенных сообщений определенным получателям, где агенты узнают, какие сообщения отправлять и кому их отправлять. Это общение усваивается неявно в результате сквозного обучения с использованием командного вознаграждения за конкретную задачу. Разница между предыдущими статьями заключается в том, что агенты общаются посредством непрерывных векторов, а не дискретных символов.

Целенаправленное, многоэтапное общение

Протокол многоступенчатой ​​связи предлагает механизм внимания. У каждого агента есть сообщение, состоящее из 2 частей: подпись k, используемая для кодирования специфической для агента информации, и значение v, которое содержит фактическое сообщение. Кроме того, предсказание вектора q происходит из скрытого состояния.

Подпись и значение запроса обрабатываются, чтобы получить вес внимания для каждого вектора значений. Полученное в результате агрегированное сообщение обрабатывается получателем.

Спасибо, что достигли этой точки!

Эта средняя статья была сделана как часть моего разорванного списка статей на ICML 2019. Если вы хотите что-то добавить, или если вы присутствуете и хотите обсудить и поговорить о MARL, напишите мне в twitter. ! :)