Обучение DeepMind на основе популяции - супер умный метод оптимизации нейронных сетей

В этом методе используется совершенно новый подход к оптимизации гиперпараметров.

Недавно я начал выпускать образовательный информационный бюллетень, посвященный ИИ, на который уже подписано более 65 000 человек. TheSequence - это информационный бюллетень, ориентированный на машинное обучение (то есть без рекламы, новостей и т. Д.), На чтение которого уходит 5 минут. Цель состоит в том, чтобы держать вас в курсе проектов, исследовательских работ и концепций машинного обучения. Пожалуйста, попробуйте, подписавшись ниже:

TheSequence
TheSequence объясняет основные концепции машинного обучения и держит вас в курсе самых актуальных проектов и… thesequence.substack.com

Обучение и оптимизация моделей глубокого обучения - одни из самых сложных аспектов любого современного решения машинного интеллекта (MI). Во многих сценариях специалисты по данным могут быстро прийти к правильному набору алгоритмов для конкретной проблемы, просто чтобы потратить бесчисленные месяцы, пытаясь найти оптимальную версию модели. Несколько лет назад DeepMind опубликовал новую исследовательскую работу, в которой предлагается новый подход к обучению и оптимизации моделей глубокого обучения, известный как обучение на основе населения.

Оптимизация традиционных моделей глубокого обучения направлена на минимизацию ошибок тестирования без радикального изменения основных компонентов модели. Один из наиболее важных подходов к оптимизации глубокого обучения основан на настройке элементов, ортогональных самой модели. Теория глубокого обучения обычно называет эти элементы гиперпараметрами. Обычно гиперпараметры в программах глубокого обучения включают такие элементы, как количество скрытых единиц или скорость обучения, которые можно настроить для повышения производительности конкретной модели.

Оптимизация гиперпараметров - это игра, в которой нужно найти правильный баланс между производительностью функции глубокого обучения и ее стоимостью. Алгоритмы, такие как стохастический градиентный спуск и его разновидности, стали центром оптимизации глубокого обучения, но по-прежнему имеют серьезные проблемы при применении в крупномасштабных сценариях. Как правило, существует два основных подхода к оптимизации гиперпараметров глубокого обучения: случайный поиск и ручная настройка. В сценариях случайного поиска совокупность моделей обучается независимо параллельно, и в конце обучения выбирается наиболее эффективная модель. Обычно это означает, что только небольшая часть населения будет обучаться с хорошими гиперпараметрами, а остальные будут обучаться с плохими, тратя ресурсы компьютера.

Подход ручного поиска основан на последовательных процессах оптимизации. Последовательная оптимизация требует выполнения нескольких обучающих прогонов (возможно, с ранней остановкой), после чего выбираются новые гиперпараметры, и модель повторно обучается с нуля с новыми гиперпараметрами. Это по своей сути последовательный процесс, который приводит к длительному времени оптимизации гиперпараметров, хотя и требует минимальных вычислительных ресурсов.

Как видите, есть преимущества и ограничения как у методов случайного поиска, так и у методов отслеживания рук. Недавно команда DeepMind опубликовала исследовательский документ, в котором пропагандируется новая техника оптимизации, которая пытается объединить лучшее из обоих подходов.

Введение в обучение на уровне населения

При обучении на основе популяции (PBT) используется аналогичный подход к случайному поиску путем случайной выборки гиперпараметров и инициализаций весов. В отличие от традиционного подхода, PBT запускает каждое обучение асинхронно и периодически оценивает его производительность. Если модель в генеральной совокупности недостаточно эффективна, она будет использовать остальную часть модельной совокупности и заменять себя более оптимальной моделью. В то же время PBT исследует новые гиперпараметры, изменяя гиперпараметры лучшей модели, прежде чем обучение будет продолжено.

Процесс PBT позволяет оптимизировать гиперпараметры в режиме онлайн, а вычислительные ресурсы сосредоточить на гиперпараметре и весовом пространстве, которые имеют наибольшие шансы на получение хороших результатов. Результатом является метод настройки гиперпараметров, который, хотя и очень прост, приводит к более быстрому обучению, меньшим вычислительным ресурсам и часто лучшим решениям.

В исследовательской работе команда DeepMind применяет PBT в различных сценариях, таких как глубокое обучение с подкреплением или машинные переводы. Первоначальные результаты были очень обнадеживающими: PBT продемонстрировал значительные улучшения по сравнению с традиционными методами.

В исследовательской статье DeepMind открыла исходный код первоначальной реализации, доступной на Github. С тех пор PBT был принят во многих различных инструментах оптимизации гиперпараметров.

Обучение DeepMind на основе популяции - супер умный метод оптимизации нейронных сетей

В этом методе используется совершенно новый подход к оптимизации гиперпараметров.

Введение в обучение на уровне населения

Вопросы по теме