Многоагентный RL и проблемы масштабируемости для произвольного доступа в MTC

Парадигма машинного типа связи (MTC) в беспроводной связи поможет соединить миллионы устройств для выполнения различных задач без участия человека. Существует множество вариантов использования MTC, таких как автоматизация производства, управление автопарком, умные дома и интеллектуальные измерения, электронное здравоохранение и интеллектуальная логистика и т. д. В основном устройства, называемые машинными устройствами (MTD) в сети MTC, являются силовыми - ограниченные устройства низкой сложности, работающие от батареи. Более того, в отличие от устройств связи человеческого типа (HTC), эти устройства будут иметь пакеты небольшой длины и случайные циклы сна. Из-за этих особенностей — особенно с точки зрения характеристик трафика — системы МТС требуют новых методов множественного доступа, в отличие от схем в HTC: доступ без предоставления и доступ на основе предоставления [1].

Было установлено, что методы на основе грантов или планирования неприменимы для трафика с короткими пакетами и когда устройства ограничены зарядом батареи. Это связано с тем, что схемы на основе грантов, такие как TDMA и FDMA, требуют обмена сигнализацией, которая потребляет энергию батареи и массивную сигнализацию для отправки пакета, который может иметь данные полезной нагрузки, меньшие, чем управляющие данные, используемые для сигнализации. Предпочтительным вариантом являются нескоординированные схемы произвольного доступа (RA) на основе грантов, такие как ALOHA с интервалами для MTC. При нескоординированном RA каждый пользователь случайным образом выбирает физический ресурс и передает его данные общему приемнику. Такая схема требует минимальной сигнализации и проста в реализации; однако, как мы знаем, схемы RA страдают от большого количества столкновений при высокой интенсивности трафика. По этим причинам существует потребность в проектировании и разработке новых схем доступа для систем МТС или улучшенных механизмов разрешения коллизий на основе новых моделей трафика, которые хорошо подходят для МТС.

В последние годы было выполнено значительное количество исследовательских работ с использованием машинного обучения и, в частности, обучения с подкреплением (RL) для распределения ресурсов в беспроводных сетях. В этих работах используются современные методы RL для разработки политик распределения ресурсов и произвольного доступа, поскольку каждый пользователь в сети принимает решение независимо, не зная действий и состояния других пользователей, проблема обычно моделируется с использованием мультиагента. RL и частично наблюдаемая среда.

Грубо говоря, многоагентные методы RL можно разделить на централизованное обучение, децентрализованное выполнение (CTDE) и полностью децентрализованное обучение и выполнение. Для сети MTC использование многоагентного RL для RA становится еще более сложным из-за следующих требований.

Требования к схеме доступа на основе MARL для MTC

Поскольку устройства в сети MTC имеют ограниченный заряд батареи и очень низкую вычислительную сложность, а также переменные циклы ожидания, устройства должны иметь одинаковую политику доступа к каналу, которая может быть развернута распределенным способом. .
По тем же причинам обучение на таких устройствах невозможно, и поэтому нам нужен механизм CTDE для изучения политики для устройств.
Схема должна быть масштабируемой на большое количество устройств.
Схема должна иметь низкие накладные расходы на сигнализацию, поэтому связь между пользователями невозможна.

Совместное использование параметров — решение?

Совместное использование параметров — это, пожалуй, самая простая, но очень полезная форма многоагентного RL с CTDE, основная идея которого состоит в расширении сети с одним агентом до многоагентной системы [2]. Все агенты используют одну и ту же сеть или один и тот же аппроксиматор функций для вычисления значения каждого состояния, и агенты однородны: одно и то же пространство действий, вознаграждения и пространство состояний и, следовательно, одна и та же политика. Это означает, что агенты с одним и тем же состоянием будут иметь одинаковые значения для этого состояния. Чтобы различать состояния, идентификатор агента обычно кодируется в состоянии, так что каждый агент будет иметь уникальное состояние. Одним из преимуществ совместного использования параметров является то, что его можно масштабировать лучше, чем другие многоагентные методы. Однако степень масштабируемости пока неизвестна и, возможно, зависит от проблемы и модели среды. Во всяком случае, для МТС, где для одного и того же типа устройств разумно использовать совместное использование параметров для масштабируемости, поскольку для одного и того же типа устройств будут выполняться одни и те же задачи; однако есть проблема!

Проблема: устройства в сети MTC могут подключаться и выходить из сети случайным образом, и даже новые устройства могут подключаться к сети. Поэтому включение идентификатора агента в пространство состояний на самом деле не имеет смысла и может только усложнить ситуацию.

Мы представили несколько наших работ в этой области, где мы не использовали идентификатор агента в состоянии и использовали разные функции вознаграждения в обеих наших работах [3] и [4]. Мы показали, что совместное использование параметров ведет себя разумно, но, возможно, для трафика, смоделированного в обеих этих работах, больше ничего не выиграешь. Мы использовали один ресурс и несколько пользователей для расчета вероятности передачи пользователей. В [4] мы представили наш анализ масштабируемости. Мы использовали DQN и планируем использовать методы критики актеров, чтобы посмотреть, сможем ли мы лучше изучить распределение вероятностей в пространстве действий. Проблема с использованием мультиагентного RL «актор-критик» с централизованным критиком и децентрализованными акторами заключается в том, что размеры централизованного критика увеличиваются по мере увеличения числа агентов. Следовательно, мы можем либо сжать эту информацию, которая уже ограничена, либо просто использовать локального актора и локального критика для каждого агента, что, по нашему мнению, не даст прироста производительности по сравнению с DQN.

Заключительные замечания

Проблема масштабируемости алгоритмов MARL для связи машинного типа заключается в сложности разработки политики доступа. С точки зрения RL, если, с одной стороны, совместное использование параметров позволяет нам масштабироваться для одного и того же типа агентов, но, с другой стороны, нам необходимо разработать политику произвольного доступа без предоставления источника, в которой нам не нужно знать личности агентов. Кроме того, при разработке политики доступа необходимо учитывать характеристики трафика сети МТС. Генерация трафика устройств в сети МТС является независимой, а также коррелированной. Например, в случае такого события, как обнаружение неисправности в машине, пожар или землетрясение, существует высокая вероятность одновременного включения устройств в эпицентре события.

В этом посте мы выделили некоторые из проблем высокого уровня с точки зрения разработки протоколов произвольного доступа для сетей MTC с использованием RL. В большинстве работ действительно не говорится о масштабируемости, и в большинстве работ не учитывается фактор накладных расходов на сигнализацию при проектировании многоагентной системы RL. Такие методы не могут быть непосредственно применены в сетях МТС, и поэтому вышеупомянутые факторы следует учитывать при разработке политик произвольного доступа для МТС.

Кредиты

Статью написал и отредактировал Мухаммад А. Джадун (Medium profile), научный сотрудник CTTC.

Многоагентный RL и проблемы масштабируемости для произвольного доступа в MTC

Требования к схеме доступа на основе MARL для MTC

Совместное использование параметров — решение?

Заключительные замечания

Рекомендации

Кредиты

Вопросы по теме