1.Новая платформа для поиска нейронной архитектуры в домене Hill Climbing (arXiv)

Автор: Мудит Верма, Прадьюмна Синха, Каран Гоял, Апурва Верма, Себа Сьюзан

Аннотация. Нейронные сети уже давно используются для решения сложных задач в области изображений, однако их проектирование требует ручного труда. Кроме того, методы автоматического создания подходящей архитектуры глубокого обучения для данного набора данных часто используют обучение с подкреплением и эволюционные методы, которые требуют больших вычислительных ресурсов и времени. Мы предлагаем новую структуру для поиска нейронной архитектуры, основанную на процедуре восхождения на холм с использованием операторов морфизма, которая использует новую схему обновления градиента. Обновление основано на старении слоев нейронной сети и приводит к сокращению общего времени обучения. Этот метод может выполнять поиск в более широком пространстве поиска, что впоследствии дает конкурентоспособные результаты. Мы достигли уровня ошибок 4,96% в наборе данных CIFAR-10 за 19,4 часа обучения с одним GPU.

2. Восхождение в гору по оценке ценности для управления поиском в Dyna(arXiv)

Автор: Янчен Пан, Хэншуай Яо, Амир-Масуд Фарахманд, Марта Уайт

Аннотация:Dyna — это архитектура для обучения с подкреплением на основе моделей (RL), в которой смоделированный опыт модели используется для обновления политик или функций ценности. Ключевым компонентом Dyna является управление поиском, механизм для создания состояния и действия, из которого агент запрашивает модель, которая остается в значительной степени неизученной. В этой работе мы предлагаем генерировать такие состояния, используя траекторию, полученную из Hill Climbing (HC) текущую оценку функции ценности. Это приводит к распространению ценности из регионов с высокой ценностью и упреждающему обновлению оценок ценности регионов, которые агент, вероятно, посетит в следующий раз. Мы выводим зашумленный алгоритм спроецированного естественного градиента для восхождения на холм и подчеркиваем связь с динамикой Ланжевена. Мы предоставляем эмпирическую демонстрацию в четырех классических областях, что наш алгоритм, HC-Dyna, может значительно улучшить эффективность выборки. Мы изучаем свойства различных выборочных распределений для управления поиском и обнаруживаем, что, по-видимому, есть преимущество именно от использования выборок, сгенерированных путем подъема по оценкам текущих значений от области с низким значением к области с высоким значением.

3. Автоматизация транспортных средств с помощью глубокого обучения с подкреплением с использованием разделения задач с восхождением на холм (arXiv)

Автор : Могенс Граф Плессен

Аннотация: В контексте автономного вождения предлагается основанный на модели алгоритм обучения с подкреплением для разработки контроллеров с параметрами нейронной сети. Классические методы управления на основе моделей, которые включают алгоритмы на основе выборки и решетки, а также управление с прогнозированием моделей, страдают от компромисса между сложностью модели и вычислительной нагрузкой, необходимой для онлайн-решения дорогостоящих задач оптимизации или поиска при каждом коротком времени выборки. Чтобы обойти этот компромисс, мотивирована двухэтапная процедура: сначала обучение контроллера во время автономного обучения на основе произвольно сложной математической модели системы, а затем онлайн быстрая упреждающая оценка обученного контроллера. Вкладом этой статьи является предложение простого безградиентного алгоритма на основе моделей для глубокого обучения с подкреплением с использованием разделения задач с восхождением на холм (TSHC). В частности, рекомендуется (i) одновременное обучение отдельным детерминированным задачам с целью кодирования многих примитивов движения в нейронной сети и (ii) использование максимально разреженных вознаграждений в сочетании с ограничениями виртуальной скорости (VVC) в непосредственной близости от заданного значения.

4. Случайная мутация на основе бандитов

Автор:Джиалин Лю, Диего Пешес-Лиебана, Саймон М. Лукас

Аннотация:алгоритм Random Mutation Hill-Climbing — это метод прямого поиска, который в основном используется в дискретных доменах. Он повторяет процесс случайного выбора соседа с лучшим на данный момент решением и принимает соседа, если он лучше или равен ему. В этой работе мы предлагаем использовать новый метод для выбора соседнего решения с использованием набора независимых многоруких бандитских единиц выбора, что приводит к основанному на бандитах алгоритму случайной мутации. Новый алгоритм значительно превосходит Random Mutation Hill-Climbing как в задачах OneMax (в бесшумном и зашумленном случаях), так и в задачах Royal Road (в бесшумном случае). Алгоритм показывает особые перспективы для задач дискретной оптимизации, где каждая оценка пригодности является дорогостоящей.