Как работает алгоритм восхождения на холм (искусственный интеллект)

1.Новая платформа для поиска нейронной архитектуры в домене Hill Climbing (arXiv)

Автор: Мудит Верма, Прадьюмна Синха, Каран Гоял, Апурва Верма, Себа Сьюзан

Аннотация. Нейронные сети уже давно используются для решения сложных задач в области изображений, однако их проектирование требует ручного труда. Кроме того, методы автоматического создания подходящей архитектуры глубокого обучения для данного набора данных часто используют обучение с подкреплением и эволюционные методы, которые требуют больших вычислительных ресурсов и времени. Мы предлагаем новую структуру для поиска нейронной архитектуры, основанную на процедуре восхождения на холм с использованием операторов морфизма, которая использует новую схему обновления градиента. Обновление основано на старении слоев нейронной сети и приводит к сокращению общего времени обучения. Этот метод может выполнять поиск в более широком пространстве поиска, что впоследствии дает конкурентоспособные результаты. Мы достигли уровня ошибок 4,96% в наборе данных CIFAR-10 за 19,4 часа обучения с одним GPU.

2. Восхождение в гору по оценке ценности для управления поиском в Dyna(arXiv)

Автор: Янчен Пан, Хэншуай Яо, Амир-Масуд Фарахманд, Марта Уайт

Аннотация:Dyna — это архитектура для обучения с подкреплением на основе моделей (RL), в которой смоделированный опыт модели используется для обновления политик или функций ценности. Ключевым компонентом Dyna является управление поиском, механизм для создания состояния и действия, из которого агент запрашивает модель, которая остается в значительной степени неизученной. В этой работе мы предлагаем генерировать такие состояния, используя траекторию, полученную из Hill Climbing (HC) текущую оценку функции ценности. Это приводит к распространению ценности из регионов с высокой ценностью и упреждающему обновлению оценок ценности регионов, которые агент, вероятно, посетит в следующий раз. Мы выводим зашумленный алгоритм спроецированного естественного градиента для восхождения на холм и подчеркиваем связь с динамикой Ланжевена. Мы предоставляем эмпирическую демонстрацию в четырех классических областях, что наш алгоритм, HC-Dyna, может значительно улучшить эффективность выборки. Мы изучаем свойства различных выборочных распределений для управления поиском и обнаруживаем, что, по-видимому, есть преимущество именно от использования выборок, сгенерированных путем подъема по оценкам текущих значений от области с низким значением к области с высоким значением.

3. Автоматизация транспортных средств с помощью глубокого обучения с подкреплением с использованием разделения задач с восхождением на холм (arXiv)

Автор : Могенс Граф Плессен

Аннотация: В контексте автономного вождения предлагается основанный на модели алгоритм обучения с подкреплением для разработки контроллеров с параметрами нейронной сети. Классические методы управления на основе моделей, которые включают алгоритмы на основе выборки и решетки, а также управление с прогнозированием моделей, страдают от компромисса между сложностью модели и вычислительной нагрузкой, необходимой для онлайн-решения дорогостоящих задач оптимизации или поиска при каждом коротком времени выборки. Чтобы обойти этот компромисс, мотивирована двухэтапная процедура: сначала обучение контроллера во время автономного обучения на основе произвольно сложной математической модели системы, а затем онлайн быстрая упреждающая оценка обученного контроллера. Вкладом этой статьи является предложение простого безградиентного алгоритма на основе моделей для глубокого обучения с подкреплением с использованием разделения задач с восхождением на холм (TSHC). В частности, рекомендуется (i) одновременное обучение отдельным детерминированным задачам с целью кодирования многих примитивов движения в нейронной сети и (ii) использование максимально разреженных вознаграждений в сочетании с ограничениями виртуальной скорости (VVC) в непосредственной близости от заданного значения.

4. Случайная мутация на основе бандитов

Автор:Джиалин Лю, Диего Пешес-Лиебана, Саймон М. Лукас

Аннотация:алгоритм Random Mutation Hill-Climbing — это метод прямого поиска, который в основном используется в дискретных доменах. Он повторяет процесс случайного выбора соседа с лучшим на данный момент решением и принимает соседа, если он лучше или равен ему. В этой работе мы предлагаем использовать новый метод для выбора соседнего решения с использованием набора независимых многоруких бандитских единиц выбора, что приводит к основанному на бандитах алгоритму случайной мутации. Новый алгоритм значительно превосходит Random Mutation Hill-Climbing как в задачах OneMax (в бесшумном и зашумленном случаях), так и в задачах Royal Road (в бесшумном случае). Алгоритм показывает особые перспективы для задач дискретной оптимизации, где каждая оценка пригодности является дорогостоящей.

Как работает алгоритм восхождения на холм (искусственный интеллект)

Вопросы по теме