1. Неконтролируемая сеть выборки с учетом времени с глубоким обучением с подкреплением для распознавания эмоций на основе ЭЭГ(arXiv)

Автор: Юнтао Чжан, Юэ Пань, Юлинь Чжан, Линлин Ли, Ли Чжан, Гань Хуан, Чжэнь Лян, Чжиго Чжан

Аннотация: Распознавание человеческих эмоций по сложным, многомерным и нестационарным временным рядам электроэнцефалографии (ЭЭГ) имеет важное значение в аффективном интерфейсе мозг-компьютер. Однако, поскольку непрерывная маркировка постоянно меняющихся эмоциональных состояний на практике невозможна, существующие методы могут только назначать фиксированные метки всем временным точкам ЭЭГ в непрерывном испытании, вызывающем эмоции, которое упускает из виду высокодинамичные эмоциональные состояния и крайне нестационарную ЭЭГ. сигналы. Чтобы решить проблемы высокой зависимости от фиксированных меток и игнорирования изменяющейся во времени информации, в этой статье мы предлагаем сеть выборки с учетом времени (TAS-Net), использующую глубокое обучение с подкреплением (DRL) для неконтролируемого распознавания эмоций, которая способна обнаруживать ключевые фрагменты эмоций и игнорировать нерелевантные и вводящие в заблуждение части. Обширные эксперименты проводятся на трех общедоступных наборах данных (SEED, DEAP и MAHNOB-HCI) для распознавания эмоций с использованием перекрестной проверки с исключением одного субъекта, и результаты демонстрируют превосходство предложенного метода над предыдущими неконтролируемыми методами распознавания эмоций.

2. Коррекция безопасности по сравнению с базовым уровнем: на пути к политике учета рисков в робототехнике с помощью двухагентного обучения с подкреплением(arXiv)

Автор: Линруй Чжан, Цзычен Ян, Ли Шэнь, Шоуцзе Ли, Сюэцянь Ван, Дачэн Тао

Вывод:Изучение политики учета рисков является важным, но довольно сложным в неструктурированных роботизированных задачах. Безопасные методы обучения с подкреплением открывают новые возможности для решения этой проблемы. Однако консервативные обновления политик затрудняют достижение достаточного исследования и желаемой производительности в сложных средах с большими затратами на выборку. В этой статье мы предлагаем двойную стратегию безопасного обучения с подкреплением, состоящую из базового уровня и безопасного агента. Такая несвязанная структура обеспечивает высокую гибкость, эффективность данных и осведомленность о рисках для управления на основе RL. Конкретно, базовый агент отвечает за максимальное вознаграждение при стандартных настройках RL. Таким образом, он совместим с готовыми методами обучения неограниченной оптимизации, исследования и эксплуатации. С другой стороны, безопасный агент имитирует базового агента для улучшения политики и учится выполнять ограничения безопасности с помощью настройки RL вне политики. В отличие от обучения с нуля, безопасная коррекция политики требует значительно меньшего количества взаимодействий для получения почти оптимальной политики. Двойные политики можно оптимизировать синхронно с помощью общего буфера воспроизведения или с использованием предварительно обученной модели или необучаемого контроллера в качестве фиксированного базового агента. Экспериментальные результаты показывают, что наш подход может освоить возможные навыки без предварительных знаний, а также получить аналоги, не склонные к риску, из предварительно обученных небезопасных политик. Предлагаемый метод превосходит современные безопасные алгоритмы RL в сложных задачах передвижения и манипулирования роботами как в отношении удовлетворения ограничений безопасности, так и в отношении эффективности выборки.

3. Эффективное исследование в обучении с подкреплением с ограниченными ресурсами(arXiv)

Автор:Чжихай Ван, Таосин Пань, Ци Чжоу, Цзе Ван

Выдержка. Во многих реальных приложениях обучения с подкреплением (RL) выполнение действий требует потребления определенных типов ресурсов, которые не восполняются в каждом эпизоде. Типичные приложения включают роботизированное управление с ограниченным энергопотреблением и видеоигры с расходными материалами. В задачах с непополняемыми ресурсами мы наблюдаем, что популярные методы RL, такие как критика мягкого актера, страдают низкой эффективностью выборки. Основная причина заключается в том, что они имеют тенденцию быстро истощать ресурсы, и поэтому последующее исследование сильно ограничено из-за отсутствия ресурсов. Чтобы решить эту проблему, мы сначала формализуем вышеупомянутую проблему как обучение с подкреплением с ограниченными ресурсами, а затем предлагаем новый бонус исследования с учетом ресурсов (RAEB) для разумного использования ресурсов. Привлекательной особенностью RAEB является то, что он может значительно сократить ненужные ресурсоемкие испытания, эффективно побуждая агента исследовать непосещенные состояния. Эксперименты показывают, что предлагаемый RAEB значительно превосходит современные стратегии исследования в условиях обучения с подкреплением с ограниченными ресурсами, повышая эффективность выборки на порядок.