В этом методе используется совершенно новый подход к оптимизации гиперпараметров.

Недавно я начал выпускать образовательный информационный бюллетень, посвященный ИИ, на который уже подписано более 65 000 человек. TheSequence - это информационный бюллетень, ориентированный на машинное обучение (то есть без рекламы, новостей и т. Д.), На чтение которого уходит 5 минут. Цель состоит в том, чтобы держать вас в курсе проектов, исследовательских работ и концепций машинного обучения. Пожалуйста, попробуйте, подписавшись ниже:



Обучение и оптимизация моделей глубокого обучения - одни из самых сложных аспектов любого современного решения машинного интеллекта (MI). Во многих сценариях специалисты по данным могут быстро прийти к правильному набору алгоритмов для конкретной проблемы, просто чтобы потратить бесчисленные месяцы, пытаясь найти оптимальную версию модели. Несколько лет назад DeepMind опубликовал новую исследовательскую работу, в которой предлагается новый подход к обучению и оптимизации моделей глубокого обучения, известный как обучение на основе населения.

Оптимизация традиционных моделей глубокого обучения направлена ​​на минимизацию ошибок тестирования без радикального изменения основных компонентов модели. Один из наиболее важных подходов к оптимизации глубокого обучения основан на настройке элементов, ортогональных самой модели. Теория глубокого обучения обычно называет эти элементы гиперпараметрами. Обычно гиперпараметры в программах глубокого обучения включают такие элементы, как количество скрытых единиц или скорость обучения, которые можно настроить для повышения производительности конкретной модели.

Оптимизация гиперпараметров - это игра, в которой нужно найти правильный баланс между производительностью функции глубокого обучения и ее стоимостью. Алгоритмы, такие как стохастический градиентный спуск и его разновидности, стали центром оптимизации глубокого обучения, но по-прежнему имеют серьезные проблемы при применении в крупномасштабных сценариях. Как правило, существует два основных подхода к оптимизации гиперпараметров глубокого обучения: случайный поиск и ручная настройка. В сценариях случайного поиска совокупность моделей обучается независимо параллельно, и в конце обучения выбирается наиболее эффективная модель. Обычно это означает, что только небольшая часть населения будет обучаться с хорошими гиперпараметрами, а остальные будут обучаться с плохими, тратя ресурсы компьютера.

Подход ручного поиска основан на последовательных процессах оптимизации. Последовательная оптимизация требует выполнения нескольких обучающих прогонов (возможно, с ранней остановкой), после чего выбираются новые гиперпараметры, и модель повторно обучается с нуля с новыми гиперпараметрами. Это по своей сути последовательный процесс, который приводит к длительному времени оптимизации гиперпараметров, хотя и требует минимальных вычислительных ресурсов.

Как видите, есть преимущества и ограничения как у методов случайного поиска, так и у методов отслеживания рук. Недавно команда DeepMind опубликовала исследовательский документ, в котором пропагандируется новая техника оптимизации, которая пытается объединить лучшее из обоих подходов.

Введение в обучение на уровне населения

При обучении на основе популяции (PBT) используется аналогичный подход к случайному поиску путем случайной выборки гиперпараметров и инициализаций весов. В отличие от традиционного подхода, PBT запускает каждое обучение асинхронно и периодически оценивает его производительность. Если модель в генеральной совокупности недостаточно эффективна, она будет использовать остальную часть модельной совокупности и заменять себя более оптимальной моделью. В то же время PBT исследует новые гиперпараметры, изменяя гиперпараметры лучшей модели, прежде чем обучение будет продолжено.

Процесс PBT позволяет оптимизировать гиперпараметры в режиме онлайн, а вычислительные ресурсы сосредоточить на гиперпараметре и весовом пространстве, которые имеют наибольшие шансы на получение хороших результатов. Результатом является метод настройки гиперпараметров, который, хотя и очень прост, приводит к более быстрому обучению, меньшим вычислительным ресурсам и часто лучшим решениям.

В исследовательской работе команда DeepMind применяет PBT в различных сценариях, таких как глубокое обучение с подкреплением или машинные переводы. Первоначальные результаты были очень обнадеживающими: PBT продемонстрировал значительные улучшения по сравнению с традиционными методами.

В исследовательской статье DeepMind открыла исходный код первоначальной реализации, доступной на Github. С тех пор PBT был принят во многих различных инструментах оптимизации гиперпараметров.