1. Частичные модели с минимальным эквивалентом стоимости для масштабируемого и надежного планирования в обучении с подкреплением на протяжении всей жизни (arXiv)

Автор : Safa Alver, Doina Precup

Аннотация: Изучение моделей окружающей среды на основе чистого взаимодействия часто считается важным компонентом создания агентов обучения с подкреплением на протяжении всей жизни. Однако обычной практикой в ​​обучении с подкреплением на основе моделей является изучение моделей, которые моделируют каждый аспект среды агента, независимо от того, важны ли они для принятия оптимальных решений или нет. В этой статье мы утверждаем, что такие модели не особенно хорошо подходят для выполнения масштабируемого и надежного планирования в сценариях обучения с подкреплением на протяжении всей жизни, и мы предлагаем новые виды моделей, которые моделируют только соответствующие аспекты окружающей среды, которые мы называем «минимальной ценностью». эквивалентные частичные модели». После предоставления формального определения для этих моделей мы приводим теоретические результаты, демонстрирующие преимущества масштабируемости при планировании с использованием таких моделей, а затем проводим эксперименты для эмпирической иллюстрации наших теоретических результатов. Затем мы предоставляем некоторые полезные эвристики о том, как изучать такие модели с помощью архитектур глубокого обучения, и эмпирически демонстрируем, что модели, изученные таким образом, могут позволить выполнять планирование, устойчивое к сдвигам распределения и комбинированным ошибкам модели. В целом, как наши теоретические, так и эмпирические результаты показывают, что частичные модели, эквивалентные минимальным значениям, могут обеспечить значительные преимущества для выполнения масштабируемого и надежного планирования в сценариях обучения с подкреплением на протяжении всей жизни.

2. Независимый от предметной области подход к характеристике систем непрерывного обучения (arXiv)

Автор: Меган М. Бейкер, Александр Нью, Марио Агилар-Саймон, Зиад аль-Хала, Себастьян М. Р. Арнольд, Эсе Бен-Ивиу, Эндрю П. Брна, Итан Брукс, Райан С. Браун, Закари Дэниелс, Анураг Дарам, Фабьен Делатр, Райан Деллана, Эрик Итон, Хаотянь Фу, Кристен Грауман, Джесси Хостетлер, Шарик Икбал, Кассандра Кент, Николас Кетц, Сохейл Колури, Джордж Конидарис, Дхириша Кудитипуди, Эрик Лернед-Миллер, Сынвон Ли и др. (22 дополнительных автора не показаны)

Аннотация. Несмотря на развитие методов машинного обучения в последние годы, современным системам не хватает устойчивости к событиям «реального мира», когда распределение входных данных и задачи, с которыми сталкиваются развернутые системы, не будут ограничены исходным контекстом обучения. , и вместо этого системам потребуется адаптироваться к новым дистрибутивам и задачам во время развертывания. Этот критический пробел может быть устранен за счет разработки систем «обучения на протяжении всей жизни», которые способны к 1) непрерывному обучению, 2) переносу и адаптации и 3) масштабируемости. К сожалению, усилия по улучшению этих возможностей обычно рассматриваются как отдельные области исследований, которые оцениваются независимо, без учета влияния каждой отдельной возможности на другие аспекты системы. Вместо этого мы предлагаем целостный подход, использующий набор показателей и структуру оценки для оценки непрерывного обучения принципиальным способом, который не зависит от конкретных областей или системных методов. С помощью пяти тематических исследований мы показываем, что этот набор показателей может помочь в разработке разнообразных и сложных систем обучения на протяжении всей жизни. Мы подчеркиваем, как предлагаемый набор метрик количественно определяет компромиссы производительности, возникающие при разработке системы обучения на протяжении всей жизни — как широко обсуждаемую дилемму стабильности-пластичности, так и недавно предложенную взаимосвязь между эффективной выборкой и надежным обучением. Кроме того, мы даем рекомендации по формулированию и использованию метрик, чтобы направлять непрерывное развитие систем обучения на протяжении всей жизни и оценивать их прогресс в будущем.