Несколько сообщений назад мы обсуждали, что AutoML — это лучший способ избежать утомительного процесса настройки всех гиперпараметров, которые изменяют поведение нейронной сети. Однако в AutoML вы также можете выбрать, какие гиперпараметры должны быть наиболее актуальными для изучения. Итак, вопрос: какой гиперпараметр мы должны изучить в первую очередь? И наш ответ — скорость обучения.

Скорость обучения — это гиперпараметр, который имеет значение при обучении нейронной сети. (Изображение предоставлено: cs231n)

Скорость обучения является критическим гиперпараметром, поскольку нейронные сети на основе глубокого обучения используют алгоритм оптимизации стохастического градиентного спуска. Это означает, что нам нужно решить, насколько двигаться к оптимуму, когда веса обновляются после вычисления потерь и градиентов. Выбор правильной скорости обучения может иметь важное значение. Скорость обучения со слишком маленьким значением может застрять и достичь оптимума через слишком много эпох. С другой стороны, слишком большая скорость обучения может выйти за пределы оптимума и сделать процесс обучения очень нестабильным.

Разные скорости обучения изменяют то, как нейронная сеть сходится к минимумам во время выполнения алгоритма градиентного спуска.

Другие вопросы, которые могут возникнуть, заключаются в том, следует ли использовать одну и ту же скорость обучения в разные моменты обучения или следует использовать разные скорости обучения в разных частях архитектуры при использовании трансферного обучения. И ответ на оба вопроса заключается в том, что разные скорости обучения в разные моменты/уровни могут повысить производительность. Такие методы, как циклическая скорость обучения или использование небольшой скорости обучения в нижних слоях, доказали свою эффективность.

Как скорость обучения меняет свое значение при использовании метода Cyclical Learning Rate?

В некоторых из наших блокнотов (https://edenlibrary.ai/notebooks) мы подробно рассматриваем различные методы эффективного управления адаптацией скорости обучения в разные моменты и слои. Все они являются рабочими примерами, готовыми для ваших модификаций.

https://github.com/Eden-Library-AI/eden_library_notebooks

Если вы найдете этот репозиторий интересным, помогите нам, поставив звездочку, и поделитесь им с коллегами. Спасибо!