1. Ограниченное онлайн-обучение для смягчения эффектов искажения в импульсно-гибком когнитивном радаре (arXiv)

Автор:Чарльз Э. Торнтон, Р. Майкл Бюрер, Энтони Ф. Мартоне

Вывод:Радиолокационные системы с быстрой перестройкой импульса продемонстрировали хорошие характеристики в динамических электромагнитных сценариях. Однако использование неидентичных сигналов в пределах интервала когерентной обработки радара может привести к вредным эффектам искажения при использовании импульсно-доплеровской обработки. В этом документе представлена ​​структура онлайн-обучения для оптимизации эффективности обнаружения при одновременном снижении вредных уровней боковых лепестков. Процесс выбора формы сигнала радара формулируется как линейная контекстуальная полосовая задача, в рамках которой устраняются адаптации формы сигнала, превышающие допустимый уровень ожидаемых искажений. Подход с ограниченным онлайн-обучением эффективен и выполним с вычислительной точки зрения, о чем свидетельствует моделирование в сценарии сосуществования радиолокационной связи и при наличии преднамеренных адаптивных помех. Этот подход применяется как к стохастическим, так и к состязательным моделям контекстного обучения бандитов, и оценивается эффективность обнаружения в динамических сценариях.

2.Эффективное онлайн-обучение для когнитивного радиолокационно-сотового сосуществования с помощью контекстной выборки Томпсона (arXiv)

Автор: Чарльз Э. Торнтон, Р. Майкл Бюрер, Энтони Ф. Мартоне

Аннотация: в этом документе описывается схема последовательного или онлайн-обучения для адаптивных радиолокационных передач, которые облегчают совместное использование спектра с несотрудничающей сотовой сетью. Сначала моделируется интерференционный канал между радаром и пространственно удаленной сотовой сетью. Затем для управления поведением радара применяется линейная структура обучения Contextual Bandit (CB). Фундаментальный компромисс между разведкой и эксплуатацией уравновешивается предложенным алгоритмом выборки Томпсона (TS), псевдобайесовским подходом, который выбирает параметры формы волны на основе апостериорной вероятности того, что конкретная форма волны является оптимальной, учитывая дисконтированную информацию о канале в качестве контекста. Показано, что контекстный подход TS быстрее сходится к поведению, которое минимизирует взаимные помехи и максимизирует использование спектра, чем сопоставимые алгоритмы контекстного бандита. Кроме того, мы показываем, что схема обучения TS приводит к благоприятному распределению SINR по сравнению с другими алгоритмами онлайн-обучения. Наконец, предлагаемый алгоритм TS сравнивается с моделью глубокого обучения с подкреплением. Мы показываем, что алгоритм TS поддерживает конкурентоспособную производительность с более сложной глубокой Q-сетью (DQN).

3. Вывод о соперничающем радаре. От обратного отслеживания к обратному обучению с подкреплением когнитивного радара (arXiv)

Автор:Викрам Кришнамурти

Аннотация: когнитивное зондирование относится к реконфигурируемому сенсору, который динамически адаптирует свой сенсорный механизм, используя стохастический контроль для оптимизации своих сенсорных ресурсов. Например, когнитивные радары представляют собой сложные динамические системы; они используют стохастический контроль для восприятия окружающей среды, извлекают из нее важную информацию о цели и фоне, а затем адаптируют радиолокационный датчик для удовлетворения потребностей своей миссии. Последние два десятилетия стали свидетелями интенсивных исследований в области когнитивных/адаптивных радаров. В этой статье обсуждается следующий логический шаг, а именно обратное когнитивное восприятие. Наблюдая за излучением датчика (например, радара или вообще управляемой стохастической динамической системы) в реальном времени, как мы можем определить, является ли датчик когнитивным (рациональный максимизатор полезности), и как мы можем предсказать его будущие действия? Научные задачи включают распространение байесовской фильтрации, обучения с обратным подкреплением и стохастической оптимизации динамических систем на состязательную среду, управляемую данными. Наша методология выходит за рамки классической статистической обработки сигналов (теория обнаружения и оценки/обнаружения), чтобы решить более глубокую проблему, заключающуюся в том, как сделать вывод о стратегии на основе обнаружения. Генеративные модели, алгоритмы состязательного вывода и связанный с ними математический анализ приведут к прогрессу в понимании того, как работают сложные адаптивные датчики, такие как когнитивные радары.

4. Когнитивный радар с использованием обучения с подкреплением в автомобильных приложениях (arXiv)

Автор: Пэнфэй Лю, Иминь Лю, Тяньяо Хуан, Юсян Лу, Сицинь Ван

Аннотация:Концепция когнитивного радара (CR) позволяет радиолокационным системам достичь интеллектуальной адаптации к изменчивой среде с возможностью обратной связи от приемника к передатчику. Однако для реализации CR в быстро меняющейся среде обычно требуется хорошо известная модель среды. В нашей работе мы подчеркиваем способность CR к обучению в неизвестной среде, используя комбинацию CR и обучения с подкреплением (RL), называемую RL-CR. Меньше или вообще не требуется модель окружающей среды. Мы также применяем общий RL-CR к конкретной проблеме распределения спектра автомобильных радаров для уменьшения взаимных помех. Используя RL-CR, каждое транспортное средство может автономно выбирать частотный поддиапазон в соответствии со своим собственным наблюдением за окружающей средой. Поскольку одно наблюдение радара довольно ограничено по сравнению с общей информацией об окружающей среде, используется сеть с долговременной кратковременной памятью (LSTM), чтобы радар мог определить следующий передаваемый поддиапазон, агрегируя свои наблюдения с течением времени. Преимущество нашего подхода по сравнению с централизованным распределением спектра заключается в сокращении связи между транспортными средствами и центром управления. Он также превосходит некоторые другие политики выбора поддиапазонов распределенных частот в уменьшении помех при определенных обстоятельствах.