Это ваш универсальный магазин для всего, что RL на NeurIPS 2018

Введение

  • Конференция 2018 года по системам обработки нейронной информации (NeurIPS) проходила во Palais des Congrès de Montréal, Montréal CANADA с вс 2 декабря по сб 8th, 2018.
  • NeurIPS - это ведущая научная конференция, посвященная исследованиям в области искусственного интеллекта / машинного обучения.
  • Было принято 1011 статей из 4856 представленных со степенью принятия 20,8%, в том числе 30 устных, 168 прожекторов и 813 плакатов.
  • RL - одна из самых больших тем, и просмотреть все 76 принятых статей RL кажется непосильной задачей. Итак, здесь я дам вам краткое изложение всего RL на NeurIPS 2018!

Категории RL

Я делю все принятые статьи RL по следующим темам:

Формат: заголовок - TL; DR.

Теория RL

  • Безоблачное Q-обучение и итерация значений (лучшая статья) - идентифицируют фундаментальный источник ошибок в Q-обучении и других формах динамического программирования с аппроксимацией функций. Бредовая предвзятость возникает, когда приближенная архитектура ограничивает класс выразимых жадных политик. Ввести новое понятие согласованности политик и определить процесс локального резервного копирования, который обеспечивает глобальную согласованность за счет использования информационных наборов - наборов, которые фиксируют ограничения для политик, согласующихся с резервными Q-значениями; предложить другие практические эвристики для итерации значений и Q-обучения, которые пытаются уменьшить бредовое смещение. Env grid world.
  • Многоступенчатые жадные политики в приближенном и онлайн-обучении с подкреплением - мы изучаем многоэтапные жадные алгоритмы. В отсутствие приближений монотонное улучшение политики не гарантируется, если размер шага обновления не является достаточно большим.
  • Алгоритмы и приложения полного стохастического градиента в обучении с подкреплением - правило полной производной приводит к интуитивно понятной визуальной структуре для создания оценок градиента на графических моделях. Оцените наши методы на основе алгоритмов градиента политики на основе моделей, добейтесь хорошей производительности и представьте доказательства, помогающие демистифицировать успех популярного алгоритма PILCO.
  • Обучение с подкреплением с несколькими экспертами: подход комбинации байесовских моделей - применяйте комбинацию байесовских моделей с несколькими экспертами таким образом, чтобы научиться доверять хорошей комбинации экспертов по мере продвижения обучения, чтобы улучшить сходимость между дискретными и непрерывными областями и различными алгоритмами обучения с подкреплением. Env: CartPole and Summary.
  • Итерация двойной политики. Реактивная политика обновляется под контролем нереактивной политики, а нереактивная политика улучшается под руководством реактивной политики. Изучите эту стратегию итераций двойной политики (DPI) в альтернативной структуре оптимизации и предоставьте анализ конвергенции, который расширяет существующую теорию API. MuJoCo Env.
  • Сожаление о политике в повторяющихся играх - проверьте, что сожалеет о политике в настройках игры; представили понятие политического равновесия и показали, что оно отражает поведение тех, кто не сожалеет о политике.
  • Изучение выпуклых границ для линейно-квадратичного синтеза политики управления - используйте последовательное выпуклое программирование для изучения политик управления для неизвестных линейных динамических систем, чтобы максимизировать квадратичную функцию вознаграждения, с экспериментами на реальный перевернутый маятник.
  • Обусловленные политикой наборы неопределенности для устойчивых марковских процессов принятия решений - предлагают непрямоугольные наборы неопределенностей, которые ограничивают предельные моменты характеристик состояния-действия, определенных для целых траекторий в процессе принятия решений. Это делает возможным обобщение для различных частей пространства состояний, сохраняя при этом соответствующую неопределенность процесса принятия решения. Env grid world.
  • Доказуемо ли эффективно Q-Learning? - докажите, что в условиях эпизодической MDP Q-обучение с исследованием UCB вызывает определенные сожаления.

Архитектура сети RL

  • Простой случайный поиск статических линейных политик является конкурентоспособным для обучения с подкреплением - представляет алгоритм случайного поиска без использования моделей для обучения статических, линейных политик для задач непрерывного управления, соответствия состоянию -современная эффективность образца на тестовых задачах передвижения MuJoCo. Оценки сильно различаются.
  • Genetic-Gated Networks для глубокого обучения с подкреплением - вдохновленные Dropout, авторы представляют Genetic-Gated Networks (G2Ns), которые объединяют вектор ворот, состоящий из бинарных генетических генов в скрытый слой (и) сетей, чтобы блокировать прямой поток нейронной сети для создания различных моделей с векторами хромосом, созданными с помощью генетического алгоритма. Повышена эффективность и производительность выборки в средах Atari и MuJoCo.

Алгоритмы RL

  • Обсуждаемое обучение с подкреплением для оптимального по Парето последовательного принятия решений - плакат. Для агента, принимающего решения от имени двух или более руководителей с разными априорными значениями динамики среды, мы предложила структуру обучения с подкреплением с возможностью переговоров (NRL): относительный вес, придаваемый полезности каждого принципала, должен со временем развиваться в зависимости от того, насколько хорошо наблюдения агента согласуются с предыдущими наблюдениями этого принципала, с экспериментами в среде простого сеточного мира.
  • Q-обучение с ближайшими соседями, когда доступен только один примерный путь в соответствии с произвольной политикой системы, рассмотрите алгоритм Q-Learning ближайшего соседа (NNQL) для изучения оптимальная функция Q с использованием метода регрессии ближайшего соседа.
  • Эффективное выборочное обучение с подкреплением со стохастическим расширением значений ансамбля - предлагает стохастическое расширение значений ансамбля (STEVE), динамически интерполируя между развертываниями модели с различной длиной горизонта для каждого отдельного примера, STEVE гарантирует что модель используется только тогда, когда это не приводит к значительным ошибкам, что превосходит базовые показатели без модели в средах MuJoCo.
  • Управляемый эволюцией градиент политики в обучении с подкреплением - эволюционное обучение с подкреплением (ERL), гибридный алгоритм, который использует совокупность EA для предоставления разнообразных данных для обучения агента RL, и периодически повторно вставляет агент RL в популяцию EA, чтобы ввести информацию о градиенте в EA. Env MuJoCo.
  • Быстрое глубокое обучение с подкреплением с использованием онлайн-корректировок из прошлого - предлагает корректировку эфемерного значения (EVA) для быстрой адаптации к опыту в их буфере воспроизведения путем изменения значения, предсказанного нейронным сеть с оценкой функции ценности, найденной путем планирования экспериментальных кортежей из буфера воспроизведения рядом с текущим состоянием. Env: gridworld и игры Atari.
  • Evolved Policy Gradients - алгоритмы метаобучения, которые развивают дифференцируемую функцию потерь, так что агент, оптимизирующий свою политику для минимизации этих потерь, будет получать высокие вознаграждения. Потеря параметризуется с помощью временных сверток опыта агента для более быстрого обучения в нескольких рандомизированных средах по сравнению с стандартным методом градиента политики. Env: MuJoCo.
  • Сбалансированная оценка политики и изучение - Мы представляем новый подход к проблемам оценки и изучения персонализированной политики принятия решений на основе данных наблюдений за прошлыми контекстами, решениями и результатами: новый, подход на основе баланса, который также делает данные похожими на новую политику, но делает это напрямую, находя веса, которые оптимизируют баланс между взвешенными данными и целевой политикой в ​​данной конечной выборке, что эквивалентно минимизации наихудшего случая или апостериорного условная среднеквадратичная ошибка.
  • Confounding-Robust Policy Improvement - структура для оценки и оптимизации для надежного улучшения политики, которая оптимизирует минимаксное сожаление кандидата в персонализированную политику принятия решений по сравнению с базовой политикой. Оценка синтетических и клинических данных демонстрирует преимущества надежного улучшения политики.
  • Об Oracle-Efficient PAC RL с богатыми наблюдениями - Мы представляем новые алгоритмы с доказуемой эффективностью выборки для сред с детерминированной динамикой скрытого состояния и статистически богатыми наблюдениями. Используя стохастическую динамику скрытого состояния, мы доказываем, что единственный известный эффективный алгоритм выборки, OLIVE, не может быть реализован в модели оракула. Мы также представляем несколько примеров, которые иллюстрируют фундаментальные проблемы управляемого обучения с подкреплением PAC в таких общих условиях.
  • Узнайте, чему не следует учиться: исключение действий с помощью глубокого обучения с подкреплением - мы предлагаем архитектуру Deep Q-Network (AE-DQN), которая сочетает в себе алгоритм Deep RL с сеть исключения действий (AEN), которая исключает неоптимальные действия. AEN обучен предсказывать недопустимые действия под контролем внешнего сигнала исключения, предоставляемого окружающей средой. Моделирование демонстрирует значительное ускорение и дополнительную надежность по сравнению с обычным DQN в текстовых играх с более чем тысячей дискретных действий.

RL внеполитическое обучение

  • MDP балансировки представления для оценки вне политики - точно оцените как индивидуальную ценность политики, так и среднюю ценность политики, используя конечную ошибку обобщения выборки для оценок значений в качестве цели получить сбалансированное представление, пройти тестирование в тележке, горной машине и в области моделирования лечения ВИЧ.
  • Оптимизация политики с помощью выборки по важности ( Устный ) - без модели, алгоритм поиска политики, POIS, для чередования в Интернете и автономная оптимизация, использующая границу с высокой достоверностью для оценки выборки важности и суррогатную целевую функцию, протестированную на выборке простых задач непрерывного управления.
  • Преодоление проклятия горизонта: оценка бесконечного горизонта вне политики - новый метод оценки вне политики, который применяет IS непосредственно к стационарному распределению посещений состояний, чтобы избежать взрыва проблема дисперсии, с которой сталкиваются существующие оценщики. Ключевым моментом является оценка отношения плотностей двух стационарных распределений, при этом траектории отбираются только из распределения поведения.
  • Теорема о градиенте политики вне политики с использованием эмфатических весов - первая теорема о градиенте политики вне политики и новый алгоритм критики-действующего лица, названный «Критик-исполнитель с решительными весами» (ACE) - что аппроксимирует упрощенные градиенты, предусмотренные теоремой. продемонстрировал на простом контрпримере, что предыдущие методы градиента вне политики - особенно OffPAC и DPG - сходятся к неправильному решению, тогда как ACE находит оптимальное решение.

RL Безопасность, доказательство, проверяемость

  • Метод ограниченной кросс-энтропии для безопасного обучения с подкреплением - Мы предлагаем метод ограниченной кросс-энтропии, который явно отслеживает его эффективность в отношении удовлетворения ограничений. Мы показываем, что асимптотическое поведение предложенного алгоритма почти наверняка описывается поведением обыкновенного дифференциального уравнения. Затем мы даем достаточные условия на свойства этого дифференциального уравнения, чтобы гарантировать сходимость предложенного алгоритма. Env: простая задача навигации.
  • Подход к безопасному обучению с подкреплением, основанный на Ляпунове -. Чтобы включить безопасность в RL, мы выводим алгоритмы в рамках ограниченных марковских задач принятия решений (CMDP), дополненных ограничениями на ожидаемые совокупные затраты. Мы определяем и представляем метод построения функций Ляпунова, которые обеспечивают эффективный способ гарантировать глобальную безопасность политики поведения во время обучения с помощью набора локальных линейных ограничений. Env: сетка-мир.
  • Проверяемое обучение с подкреплением с помощью извлечения политик - используйте непараметрические проверяемые политики дерева решений. Предложите VIPER, алгоритм, который объединяет идеи сжатия модели и обучения имитации для изучения политик дерева решений, руководствуясь политикой DNN (называемой оракулом) и ее Q-функцией. Env Pong и Cart-pole.

RL Исследование, Награда, Цель

  • Улучшение исследований в стратегиях эволюции для глубокого обучения с подкреплением с помощью группы агентов, ищущих новинки - показывают, что алгоритмы, которые были изобретены для содействия направленному исследованию в небольших развитых нейронных сетях с помощью популяций исследуемых агентов, в частности алгоритмов поиска новизны (NS) и качественного разнообразия (QD), можно гибридизировать с ES, чтобы улучшить его производительность в разреженных или вводящих в заблуждение задачах глубокого RL, сохраняя при этом масштабируемость. Env Atari и MuJoCo.
  • Стратегия исследования на основе разнообразия для глубокого обучения с подкреплением -. Чтобы приступить к исследованию, авторы представляют подход к исследованию, основанный на разнообразии, просто добавляя меру расстояния к функции потерь и предлагая метод адаптивного масштабирования для стабилизации учебного процесса. Env: Atari и MuJoCo.
  • Исследование структурированного обучения с подкреплением - (устно). Авторы обращаются к проблемам обучения с подкреплением с помощью конечных состояний и пространств действий, где базовая MDP имеет некоторую известную структуру, которая потенциально может быть использована для минимизации темпы освоения субоптимальных (состояние, действие) пар. Авторы разрабатывают алгоритм DEL (направленное исследование), который соответствует нашим нижним пределам, о которых мы сожалеем.
  • Масштабируемое скоординированное исследование при параллельном обучении с подкреплением - авторы рассматривают группу агентов обучения с подкреплением, которые одновременно работают в общей среде, и мы разрабатываем подход к эффективному скоординированному исследованию, основанный на выборка семян и обучение функциям рандомизированных значений. Для многомерного окружения (Cartpole Swing-Up) подход быстро обучается с гораздо меньшим количеством агентов, чем альтернативные схемы исследования.
  • Важность выборки в обучении с мета-подкреплением. Авторы предлагают два новые алгоритмы обучения с мета-подкреплением: E-MAML и E-RL ^ 2. Окружающая среда: сетка-мир и лабиринт с высокой яркостью.
  • Визуальное обучение с подкреплением с воображаемыми целями - изучение латентного переменного представления изображений как состояния и цели с помощью VAE позволяет выбирать цели в скрытом пространстве и вычислять вознаграждение за обучение с подкреплением. Env: настоящая роботизированная рука.
  • Изучение внутренних вознаграждений для методов градиента политики - используйте схему оптимального вознаграждения Сингха и др. который определяет оптимальную функцию внутреннего вознаграждения. Env Atari и MuJoCo.

Модельно-ориентированный RL

  • Глубокое обучение с подкреплением в нескольких испытаниях с использованием моделей вероятностной динамики -, используя модели динамики с учетом неопределенности, мы предлагаем вероятностные ансамбли с выборкой траектории (PETS), которая сочетает в себе функции с учетом неопределенности модели динамики глубинных сетей с распространением неопределенности на основе выборки. Наше сравнение с современными алгоритмами глубокого RL, основанными на моделях и без них, показывает, что наш подход соответствует асимптотической производительности безмодельных алгоритмов в нескольких сложных тестовых задачах, требуя значительно меньшего количества выборок. Env: MoJoCo.
  • Неконтролируемая сегментация видеообъектов для обучения с глубоким подкреплением предлагает обучение с подкреплением, ориентированное на движение (MOREL), которое изучает представление, обнаруживая и сегментируя движущиеся объекты неконтролируемым образом, используя структуру из движения ( оптический поток) и использует соответствующую информацию для выбора действия. Агент определяет, какие объекты критичны для принятия решений, и постепенно выстраивает политику на основе соответствующих движущихся объектов. Env: Atari.
  • Модели пространства глубокого состояния для прогнозирования временных рядов. Параметризуя линейную модель пространства состояний для каждого временного ряда совместно изученной рекуррентной нейронной сетью, наш метод сохраняет желаемые свойства моделей пространства состояний, такие как эффективность данных и интерпретируемость, используя при этом способность изучать сложные закономерности из необработанных данных, предлагаемых подходами глубокого обучения.
  • Рандомизированные априорные функции для глубокого обучения с подкреплением. Чтобы справиться с неопределенностью, добавление рандомизированной необучаемой априорной сети к каждому члену ансамбля. Мы доказываем, что этот подход эффективен с линейными представлениями, обеспечиваем простые иллюстрации его эффективности с нелинейными представлениями и показываем, что этот подход масштабируется для крупномасштабных задач намного лучше, чем предыдущие попытки.
  • Обучение с глубоким подкреплением процессов отмеченных временных точек - в асинхронной настройке как действия, предпринимаемые агентом, так и обратная связь, которую он получает из среды, являются асинхронными случайными дискретными событиями, характеризуемыми с помощью отмеченных временные точечные процессы. Мы определяем политику агента, используя интенсивность и распределение отметок соответствующего процесса, а затем выводим гибкий метод градиента политики, который включает действия агента и получаемую им обратную связь в действительные векторы с использованием глубоких рекуррентных нейронных сетей. Мы применяем нашу методологию к двум различным приложениям в персонализированном обучении и вирусном маркетинге и, используя данные, собранные из Duolingo и Twitter, мы показываем, что он может найти меры, которые помогут учащимся и маркетологам достичь своих целей более эффективно, чем альтернативы.
  • Рекуррентные модели мира способствуют эволюции политики - (устно) Генеративная рекуррентная нейронная сеть быстро обучается без учителя моделировать популярные среды обучения с подкреплением через сжатые пространственно-временные представления. Извлеченные особенности модели мира вводятся в компактные и простые политики, обученные эволюцией, достигая современных результатов в различных средах.
  • Поиск по дереву политик с одним агентом с гарантиями. Мы представили два новых алгоритма поиска по дереву для задач с одним агентом, которые регулируются политикой: LevinTS и LubyTS. Оба алгоритма имеют гарантии на количество узлов, которые они расширяют до достижения решения. Env Sokoban.
  • Глубокие генеративные модели марковского состояния - мы предлагаем структуру обучения глубокой генеративной модели марковского состояния (DeepGenMSM) для вывода метастабильных динамических систем и прогнозирования траекторий. После неконтролируемого обучения на данных временных рядов модель содержит (i) вероятностный кодировщик, который отображает из многомерного конфигурационного пространства вектор небольшого размера, указывающий на принадлежность к метастабильным (долгоживущим) состояниям, (ii) цепь Маркова, которая управляет переходами между метастабильными состояниями и облегчает анализ долговременной динамики, и (iii) генеративная часть, которая производит выборку условного распределения конфигураций на следующем временном шаге.

Обратный RL

  • Обучение учащихся с обратным подкреплением с помощью функций и демонстраций - Авторы представляют риск обучения, который измеряет потенциальную неоптимальность политик, которые выглядят оптимальными для учащегося, и показывают, что границы гарантированного риска обучения что учащийся может найти почти оптимальную политику, используя стандартные алгоритмы, основанные на обучении с обратным подкреплением. Основываясь на этих выводах, авторы предлагают схему обучения, в которой эксперт может снизить учебный риск, обновив мировоззрение учащегося, и, таким образом, в конечном итоге позволит ему найти почти оптимальную политику. env: сетка мира.
  • Бритвы Оккама недостаточно, чтобы сделать вывод о предпочтениях иррациональных агентов - в этой статье показано (1), что результат без бесплатного обеда подразумевает невозможность однозначно разложить политику на алгоритм планирования и функцию вознаграждения, и ( 2), что даже при разумной простоте апора / бритвы Оккама на множестве разложений мы не можем отличить истинное разложение от других, вызывающих большое сожаление.

Иерархический RL

  • Иерархическое обучение с подкреплением, эффективное по данным -. Мы представляем HIRO: внеполитический RL без моделей для эффективного изучения политик как верхнего, так и нижнего уровня, в то время как контроллеры нижнего уровня контролируется с помощью целей, которые изучаются и автоматически предлагаются контроллерами более высокого уровня. Наши эксперименты демонстрируют усвоенное сложное поведение смоделированных роботов, такое как толкание объектов и их использование для достижения целевых местоположений.
  • Иерархическое обучение с подкреплением для нулевого обобщения с зависимостями подзадач - для обобщения на ранее невидимую среду, характеризуемую графом подзадач, который описывает набор подзадач и их зависимости, авторы предложить нейронный решатель графа подзадач (NSGS), который кодирует граф подзадач с использованием рекурсивного встраивания нейронной сети. Env: два 2D визуальных домена.

Мультиагент

  • Многоагентное обучение с подкреплением через первичную-двойную оптимизацию с двойным усреднением - мы предлагаем алгоритм первичной-двойной оптимизации с двойным усреднением, в котором каждый агент итеративно выполняет усреднение как по пространству, так и по времени, чтобы включают информацию о соседнем градиенте и информацию о местном вознаграждении, соответственно, что сходится к оптимальному решению с глобальной геометрической скоростью. Env: mountaincar.
  • Назначение кредита для коллективного многоагентного RL с глобальным вознаграждением - для проблемы назначения кредита для нескольких агентов авторы разрабатывают подходы коллективного RL между участниками и критиками для общих условий, в которых системное вознаграждение не может быть разделено между агентами. Env: Сопоставление спроса и предложения такси в реальном мире и проблемы полицейского патрулирования.
  • Имитационное обучение с использованием нескольких агентов, генерирующее состязание - имитационное обучение с использованием нескольких агентов затруднено из-за множественных (Нэш) равновесий и нестационарной среды. Мы строим алгоритм многоагентного актера-критика для общих марковских игр. Env: Многоагентная среда частиц.
  • Обучение внимательному общению для взаимодействия нескольких агентов. При большом количестве агентов агенты не могут отличить ценную информацию, которая помогает принимать совместные решения, от информации, совместно используемой в глобальном масштабе. Авторы предлагают модель общения с вниманием, которая учится, когда общение необходимо, и как интегрировать совместно используемую информацию для совместного принятия решений. Env: среда с мультиагентными частицами.
  • Изучение надежной политики в Интернете при наличии неизвестных противников - структура иерархии преимуществ метаобучения (MLAH), которая не зависит от модели атаки и больше подходит для обучения с подкреплением за счет обработки атаки в пространстве решений (в отличие от пространства данных) и прямое смягчение усвоенной ошибки, вносимой злоумышленником. Ключ: изучите отдельные подполитики (номинальные и состязательные) в режиме онлайн под руководством главного надзорного агента, который обнаруживает присутствие злоумышленника, используя функцию преимущества для подполитик. Env: MuJoCo.
  • Подход глубокого байесовского повторного использования политик против нестационарных агентов - глубокий алгоритм BPR + для эффективного обнаружения политик и методов повторного использования при игре против нестационарных агентов в марковских играх. Env: игра с сеточным миром.
  • Оптимизация политики "субъект-критик" в частично наблюдаемых многоагентных средах - обсудите несколько правил обновления для алгоритмов "субъект-критик" в многоагентном подкреплении. Эксперименты показывают, что эти алгоритмы "субъект-критик" сходятся для приблизительного Равновесия по Нэшу в широко используемых тестовых областях покера со ставками, подобными или лучшими, чем базовые алгоритмы без моделей для игр с нулевой суммой. Текущая политика некоторых вариантов работает значительно лучше, чем базовая (включая среднюю политику NFSP) при сравнении с фиксированными ботами. Из вариантов «актер-критик» в наших экспериментах RPG и QPG превосходят RMPG. Env: Kuhn poker, Leduc poker.
  • Обучение игре с внутренне-мотивированными, самосознательными агентами - цель состоит в том, чтобы использовать внутреннюю мотивацию, движимую любопытством, для создания нового структурированного поведения в неструктурированной среде, в которой отсутствуют четкие внешние сигналы вознаграждения. ; предложите сеть «модели мира», которая учится предсказывать динамические последствия действий агента, и «самомодель», которая позволяет агенту отслеживать карту ошибок своей модели мира, чтобы противостоять развивающейся модели мира. Env: 3D-моделирование единства.
  • Изучение чужих намеренных моделей в многоагентных настройках с помощью интерактивных POMDP. Чтобы предсказать действия других агентов с помощью интерактивных частично наблюдаемых марковских процессов принятия решений, мы предлагаем подход, который эффективно использует байесовский вывод и последовательный Монте-Карло. выборка для изучения намеренных моделей других людей, которые приписывают им убеждения, предпочтения и рациональность в выборе действий. Эмпирические результаты показывают, что наш алгоритм точно изучает модели другого агента и имеет более высокую производительность, чем методы, использующие субинтенциональные модели. Env: многоагентный тигр и БПЛА-разведчик.

Мета-обучение, Многозадачность, Передача, Обучение на протяжении всей жизни

  • Мета-подкрепление стратегий структурированного исследования. В этой работе изучается, как предыдущие задачи могут быть использованы для информирования о том, как исследование должно выполняться в новых задачах. Авторы вводят модель независимого исследования со структурированным шумом (MAESN): предыдущий опыт используется как для инициализации политики, так и для получения скрытого пространства исследования, которое может привнести структурированную стохастичность в политику. Env: перемещение с помощью колесного робота, перемещение с помощью четвероногого шагающего и манипулирование объектами.
  • Распределенное многозадачное обучение с подкреплением с квадратичной сходимостью - многозадачное обучение с подкреплением (MTRL) страдает от проблем с масштабируемостью, когда количество задач или траекторий растет. Недавние методы использовали связь между MTRL и общим консенсусом, чтобы предложить масштабируемые решения. Мы совершенствуемся по сравнению с современными технологиями, выводя многозадачное обучение с подкреплением с точки зрения вариативного вывода. Затем мы предлагаем новый распределенный решатель для MTRL с гарантиями квадратичной сходимости.
  • Обучение на протяжении всей жизни с обратным подкреплением. Авторы предлагают первый подход к обучению с обратным подкреплением на протяжении всей жизни, при котором изучаются последовательные задачи посредством демонстрации, непрерывно передавая знания между задачами для повышения производительности. Env: объектный мир и шоссе.
  • Мета-градиентное обучение с подкреплением - мы обсуждаем алгоритм мета-обучения на основе градиента, который может адаптировать характер отдачи в интерактивном режиме, при этом взаимодействуя и извлекая уроки из окружающей среды. . Применительно к 57 играм в среде Atari 2600 с более чем 200 миллионами кадров наш алгоритм достиг нового уровня производительности.
  • HOUDINI: обучение на протяжении всей жизни как синтез программ -. Мы представляем нейросимволическую структуру, состоящую из: (1) синтезатора символьных программ, который выполняет поиск по типу в параметризованных программах и принимает решения о функциях библиотеки для повторного использования и об архитектурах для их объединения при изучении последовательности задач; и (2) нейронный модуль, который обучает эти программы с использованием стохастического градиентного спуска. Оценивается на трех тестах, которые сочетают восприятие с алгоритмическими задачами подсчета, суммирования и вычисления кратчайшего пути.
  • Усиленное непрерывное обучение - усиленное непрерывное обучение состоит из трех сетей: контроллера, сети значений и сети задач, использующих обучение с подкреплением для адаптивного расширения сети. Эксперименты с задачами последовательной классификации для вариантов наборов данных MNIST и CIFAR-100 демонстрируют, что предлагаемый подход превосходит существующие альтернативы непрерывного обучения для глубоких сетей.
  • Zero-Shot Transfer с дейктическим объектно-ориентированным представлением в обучении с подкреплением - мы представляем дейктическое объектно-ориентированное представление для обучения с подкреплением, которое имеет доказуемо эффективные границы обучения и может решать более широкие задачи. диапазон задач, способный безошибочно передавать динамику перехода между задачами. Env: Такси и Сокобанские домены.
  • Байесовское метаобучение, не зависящее от модели - мы предлагаем новый метод метаобучения, не зависящий от байесовской модели, который сочетает эффективное метаобучение на основе градиентов с непараметрическим вариационным выводом в принципиальной вероятностной структуре. Результаты экспериментов показывают точность и надежность предложенного метода в синусоидальной регрессии, классификации изображений, активном обучении и обучении с подкреплением (MuJoCo).
  • Вероятностное метаобучение, не зависящее от модели - предложите вероятностный алгоритм метаобучения, который может выбирать модели для новой задачи из распределения моделей. Экспериментальные результаты показывают, что этот метод может выбирать правдоподобные классификаторы и регрессоры в неоднозначных задачах обучения с несколькими выстрелами.

Приложения

  • Агент с усиленным гибридным поиском для создания отчетов о медицинских изображениях - предлагает новый агент с усиленным гибридным поиском (HRGR-агент), который совмещает традиционные подходы, основанные на поиске, с человеческими предварительные знания с современными подходами, основанными на обучении, для создания структурированных, надежных и разнообразных отчетов. Современные результаты по двум наборам данных медицинских отчетов.
  • REFUEL: изучение редких функций в глубоком обучении с подкреплением для быстрой диагностики заболеваний - предложите REFUEL, метод обучения с подкреплением, чтобы повысить эффективность онлайн-проверки симптомов для диагностики заболеваний. Этот метод может находить запросы о симптомах, которые с высокой вероятностью могут дать положительный ответ пациента.
  • Борьба со скукой в ​​рекомендательных системах с помощью обучения с линейным подкреплением. Распространенным предположением в рекомендательных системах (RS) является наличие наилучшей фиксированной стратегии рекомендаций. Мы утверждаем, что это предположение редко проверяется на практике, поскольку сам процесс рекомендации может повлиять на предпочтения пользователя. Мы показываем, что политика, учитывающая долгосрочное влияние рекомендаций, может превзойти как фиксированные, так и контекстные жадные политики в ряде реалистичных сценариев.
  • Обучение с подкреплением для решения проблемы маршрутизации транспортных средств - решение проблемы маршрутизации транспортных средств (VRP) с использованием обучения с подкреплением, наш подход превосходит классическую эвристику и инструменты OR-Tools Google на экземплярах среднего размера. по качеству решения при сопоставимом времени вычислений (после обучения). Мы демонстрируем, как наш подход может решить проблемы с разделенной доставкой, и исследуем влияние таких поставок на качество решения.
  • Обучение с подкреплением с помощью логических выводов для разработки механизмов стимулирования в краудсорсинге -. Для механизмов стимулирования краудсорсинга мы предлагаем новый механизм подкрепления с помощью логических выводов, который учится последовательно стимулировать высококачественные данные и требует таких предварительных предположений нет. Мы предлагаем метод поощрительного обучения с подкреплением (RIL), который динамически определяет оплату без доступа к каким-либо достоверным меткам. Эмпирические результаты показывают, что наш механизм стабильно хорошо работает как при рациональных, так и не полностью рациональных (адаптивное обучение) моделях работников.
  • Сообщение: Размещение устройств с минимизацией кросс-энтропии и оптимизацией проксимальной политики - для размещения устройств в обучении глубокому обучению мы предлагаем новый алгоритм совместного обучения, Post, который объединяет перекрестные минимизация энтропии и ближайшая оптимизация политики для достижения теоретически гарантированной оптимальной эффективности. Мы внедрили Post в платформу Google Cloud, и наши обширные эксперименты с несколькими популярными тестами обучения нейронных сетей продемонстрировали четкое свидетельство превосходной производительности: при том же количестве времени обучения это приводит к местам размещения, у которых время обучения сокращается на 63,7%. по последнему слову техники.
  • Визуальная память для надежного следования по пути - (устно) - Учитывая демонстрацию пути, цель состоит в том, чтобы повторно выполнить этот путь либо вперед (т. е. следуя по нему), либо в обратном направлении (т.е. поведение наведения). Для этого первая сеть генерирует абстракцию пути, а вторая сеть затем наблюдает за миром и решает, как действовать, чтобы проследить путь обратно при шумном срабатывании и изменяющейся окружающей среде. Наши эксперименты на двух реалистичных симуляторах показывают, что наш подход превосходит как классический подход к решению этой задачи, так и ряд других базовых показателей.
  • Оптимизация политики с расширением памяти для синтеза программ и семантического анализа - используйте буфер памяти с многообещающими траекториями, чтобы уменьшить дисперсию оценки градиента политики. Оцените MAPO по синтезу программ со слабым контролем из естественного языка (семантический синтаксический анализ).
  • Сеть сверточной политики графов для создания ориентированных на цели молекулярных графов. Создание новых структур графов, которые оптимизируют поставленные цели и при этом соблюдают определенные основные правила, имеет фундаментальное значение для исследований в области химии, биологии и социальных наук. . Предложите сеть сверточных политик графов (GCPN), общую модель сверточной сети на основе графов для генерации целенаправленных графов посредством обучения с подкреплением. Значительные улучшения в экспериментах по построению молекулярных графов.
  • Обучение с подкреплением для доказательства теорем. Мы представляем алгоритм доказательства теорем, который запускает моделирование Монте-Карло, руководствуясь обучением с подкреплением из предыдущих попыток доказательства. Обученная система решает за такое же количество выводов на 40% больше задач, чем базовая программа.
  • Изучение процессов временных точек с помощью обучения с подкреплением - для упорядоченных данных событий в непрерывном времени авторы рассматривают создание каждого события как действие, предпринимаемое стохастической политикой, и раскрывают функцию вознаграждения с помощью обучения с обратным подкреплением. Затем они получают эффективный алгоритм градиента политики для изучения гибких моделей точечных процессов, который хорошо работает как с синтетическими, так и с реальными данными.

Вывод

  • Глубокое обучение с подкреплением по-прежнему остается одной из самых больших и горячих тем.
  • Помимо алгоритмов обучения и теории, наиболее популярными поднаправлениями являются мета-обучение, многоагентное исследование и RL на основе моделей.
  • Появляется все больше и больше интересных приложений.

Наслаждаться !

И еще ... ссылки на лучшие статьи для вашего удобства.

Лучшие статьи

Награда за лучшую работу NeurIPS2018 :
- Безоблачное Q-обучение и итерация ценности
- Оптимальные алгоритмы для негладкой распределенной оптимизации в сетях
- Почти точные оценки сложности выборки для обучения смесей гауссианов с помощью схем сжатия выборки
- Нейронные обыкновенные дифференциальные уравнения

Награда NeurIPS2018 Test of Time Awards :
- Компромисс крупномасштабного обучения