Работа с децентрализованной оптимизацией, часть 3 (машинное обучение)

1.Оптимизация децентрализованной политики(arXiv)

Аннотация :: Изучение децентрализованного обучения или независимого обучения в кооперативном многоагентном обучении с подкреплением имеет многолетнюю историю. Недавние эмпирические исследования показывают, что независимый PPO (IPPO) может получить хорошую производительность, близкую или даже лучшую, чем методы централизованного обучения с децентрализованным исполнением, в нескольких тестах. Тем не менее, децентрализованный актор-критик с гарантией конвергенции все еще открыт. В этой статье мы предлагаем \textit{оптимизация децентрализованной политики} (DPO), децентрализованный алгоритм актер-критик с монотонным улучшением и гарантией сходимости. Мы получаем новый децентрализованный суррогат для оптимизации политики, так что монотонное улучшение совместной политики может быть гарантировано каждым агентом \textit{независимо}, оптимизирующим суррогат. На практике этот децентрализованный суррогат может быть реализован двумя адаптивными коэффициентами для оптимизации политики на каждом агенте. Эмпирически мы сравниваем DPO с IPPO в различных совместных многоагентных задачах, охватывающих дискретные и непрерывные пространства действий, а также полностью и частично наблюдаемые среды. Результаты показывают, что DPO превосходит IPPO в большинстве задач, что может свидетельствовать о наших теоретических результатах.

2.Децентрализованная оптимизация на изменяющихся во времени графиках: опрос(arXiv)

Автор :Александр Рогозин, Александр Гасников, Александр Безносиков, Дмитрий Ковалев

Аннотация: Децентрализованная оптимизация в изменяющихся во времени сетях имеет широкий спектр применений в распределенном обучении, обработке сигналов и различных задачах распределенного управления. Агенты распределенной системы локально держат цели оптимизации и могут общаться со своими непосредственными соседями по сети, которая время от времени меняется. В этой статье мы проводим обзор современных результатов и описываем методы оптимизации для изменяющихся во времени графов. Мы также даем обзор открытых вопросов в этой области и формулируем гипотезы и направления для будущей работы.

Работа с децентрализованной оптимизацией, часть 3 (машинное обучение)

Вопросы по теме