1. RELLIE: глубокое обучение с подкреплением для индивидуального улучшения изображения при слабом освещении (arXiv)

Автор: Жункай Чжан, Ланьцин Го, Сию Хуан, Бихань Вэнь

Аннотация : Улучшение изображения при слабом освещении (LLIE) — распространенная, но сложная проблема, поскольку: 1) измерения при слабом освещении могут различаться в зависимости от различных условий визуализации на практике; 2) образы могут быть освещены субъективно в соответствии с различными предпочтениями каждого человека. Чтобы решить эти две проблемы, в этой статье представлен новый метод, основанный на глубоком обучении с подкреплением, получивший название ReLLIE, для индивидуального улучшения при слабом освещении. ReLLIE моделирует LLIE как марковский процесс принятия решений, т. Е. Последовательно и рекуррентно оценивая попиксельные кривые, характерные для изображения. Учитывая вознаграждение, вычисленное из набора тщательно созданных неэталонных функций потерь, предлагается облегченная сеть для оценки кривых просветления входного изображения при слабом освещении. Поскольку ReLLIE изучает политику вместо перевода одного изображения в другое, он может обрабатывать различные измерения при слабом освещении и предоставлять настраиваемые улучшенные выходные данные, гибко применяя политику в разное время. Кроме того, ReLLIE может улучшать изображения реального мира с помощью гибридных искажений, например, шума, с помощью легкого шумоподавителя plug-and-play. Обширные эксперименты на различных тестах демонстрируют преимущества ReLLIE по сравнению с современными методами.

2. Урегулирование сложности образца автономного обучения с подкреплением на основе моделей (arXiv)

Автор: Гэн Ли, Лайси Ши, Юсинь Чен, Юэцзе Чи, Ютин Вэй

Аннотация. Эта статья посвящена автономному обучению с подкреплением (RL), которое обучается с использованием предварительно собранных данных без дальнейшего изучения. Эффективный автономный RL сможет приспособиться к сдвигу распределения и ограниченному охвату данных. Тем не менее, предшествующие алгоритмы или анализы либо страдают от неоптимальной сложности выборки, либо требуют больших затрат на выжигание для достижения оптимальности выборки, что создает препятствие для эффективного автономного RL в приложениях, испытывающих недостаток выборки. Мы демонстрируем, что подход, основанный на модели (или «плагине»), обеспечивает минимаксно-оптимальную сложность выборки без дополнительных затрат для табличных марковских процессов принятия решений (MDP). Конкретно, рассмотрим MDP с конечным горизонтом (соответственно γ-дисконтированный бесконечный горизонт) с S состояниями и горизонтом H (соответственно эффективный горизонт 11−γ) и предположим, что сдвиг распределения данных отражается некоторой усеченной концентрируемостью с одной политикой коэффициент C⋆усечен. Мы доказываем, что автономный RL на основе модели дает ε-точность со сложностью выборки {H4SC⋆clippedε2(MDPs с конечным горизонтом)SC⋆clipped(1−γ)3ε2(MDPs с бесконечным горизонтом) до логарифмического коэффициента, что является минимаксным оптимальна для всего ε-диапазона. Наши алгоритмы представляют собой «пессимистические» варианты итерации значений со штрафами в стиле Бернштейна и не требуют сложного уменьшения дисперсии.

3. Построение леса принятия решений с помощью глубокого обучения с подкреплением (arXiv)

Автор: Guixuan Wen, Kaigui Wu

Абстрактные. Методы обучения ансамбля, базовым классификатором которых является дерево решений, обычно относятся к бэггингу или бустингу. Однако, насколько нам известно, ни одна из предыдущих работ никогда не создавала ансамблевый классификатор, максимизируя долгосрочную отдачу. В этой статье предлагается метод построения леса решений под названием MA-H-SAC-DF для бинарной классификации с помощью глубокого обучения с подкреплением. Во-первых, процесс построения моделируется как децентрализованный частично наблюдаемый марковский процесс принятия решений, и набор взаимодействующих агентов совместно строит все базовые классификаторы. Во-вторых, глобальное состояние и локальные наблюдения определяются на основе информации о родительском узле и текущем местоположении. Наконец, современный метод глубокого подкрепления Hybrid SAC расширяется до многоагентной системы с архитектурой CTDE, чтобы найти оптимальную политику построения леса решений. Эксперименты показывают, что MA-H-SAC-DF имеет такую ​​же производительность, как случайный лес, Adaboost и GBDT на сбалансированных наборах данных, и превосходит их на несбалансированных наборах данных.

4.REPTILE: проактивная самоадаптирующаяся структура глубокого обучения с подкреплением в реальном времени (arXiv)

Автор: Флавио Коррадини, Михеле Лорети, Марко Пьянджерелли, Джакомо Роккетти

Аннотация: В этой работе предлагается общая структура для поддержки разработки программных систем, способных адаптировать свое поведение в соответствии с изменениями операционной среды. Предлагаемый подход, названный REPTILE, работает полностью проактивно и полагается на агентов, основанных на глубоком обучении с подкреплением, для реагирования на события, называемые новинками, которые могут повлиять на ожидаемое поведение системы. В нашей структуре учитываются два типа новшеств: связанные с контекстом/средой и связанные с самой физической архитектурой. Платформа, предсказывающая эти новшества до их появления, извлекает изменяющиеся во времени модели окружающей среды и использует подходящий марковский процесс принятия решений для работы в режиме реального времени. Более того, архитектура нашего агента RL развивается в зависимости от возможных действий, которые можно предпринять.

5. Эффективная в вычислительном отношении совместная координация нескольких точек зарядки электромобилей с использованием обучения с подкреплением (arXiv)

Автор:Ману Лахария, Насрин Садегианпурхамами, Крис Девелдер

Аннотация. Основной проблемой современной энергосистемы является управление растущей нагрузкой от зарядки электромобилей (EV). Решения Demand Response (DR) нацелены на использование гибкости, т. е. возможность смещать зарядку электромобиля во времени и, таким образом, избегать чрезмерных пиков или достигать лучшей балансировки. В то время как большинство существующих исследовательских работ либо фокусируются на стратегиях управления для одного зарядного устройства электромобиля, либо используют многоэтапный подход (например, первый шаг принятия решения по совокупному управлению высокого уровня, за которым следуют индивидуальные решения по управлению электромобилем), мы скорее предлагаем единый Пошаговое решение, которое совместно координирует несколько точек зарядки одновременно. В этой статье мы дополнительно уточняем первоначальное предложение с использованием обучения с подкреплением (RL), в частности, решая вычислительные проблемы, которые ограничивают его практическое применение. Точнее, мы разрабатываем новую формулировку марковского процесса принятия решений (MDP) процесса координации зарядки электромобиля, демонстрирующую только линейную пространственную и временную сложность (в отличие от более ранней квадратичной пространственной сложности). Таким образом, мы улучшили предыдущий уровень техники, продемонстрировав сокращение времени обучения на 30% в нашем тематическом исследовании с использованием данных о сеансах зарядки электромобиля в реальном мире. Тем не менее, мы не жертвуем полученной производительностью для достижения целей аварийного восстановления: наши новые решения RL по-прежнему улучшают производительность координации спроса на зарядку на 40–50% по сравнению с обычной политикой (когда электромобиль заряжается полностью по прибытии) и 20–30% по сравнению с эвристической политикой (которая равномерно распределяет зарядку отдельных электромобилей во времени)