Предварительно обученные представления дают два преимущества при тонкой настройке: (1) повышенная эффективность выборки и (2) упрощенная настройка гиперпараметров. Для достижения этой цели в этой статье [1] представлен рецепт как для предварительного обучения, так и для точной настройки нейронных сетей для задач зрения. Эти два шага переплетены, и хороший инженерный рецепт необходим для достижения наилучшей производительности.

В то время как предварительное обучение с немаркированными данными является обычным явлением в наши дни (2023 г.), в этой статье 2020 г. выполняется предварительное обучение на помеченных данных, т.е. полностью контролируемая установка. Несмотря на это, в этой статье содержатся хорошие инженерные советы, которые должны работать как для контролируемого, так и для самоконтролируемого предварительного обучения. В документе эта установка называется Big Transfer (BiT). В этой статье представлены настройки предварительной подготовки и тонкой настройки в документе. Затем в статье обобщаются инженерные советы BiT.

Настройка перед тренировкой

Бумага изучает предварительно обученное представление полностью контролируемым образом. Соответственно, в статье используются три помеченных набора данных: (1) ImageNet-1K с 1,3 млн изображений (BiT-Small), (2) ImageNet-21k с 14 млн изображений (BiT-Medium) и (3). ) JFT с 300 млн изображений (BiT-Large). В документе модели ResNet используются во всех экспериментах.

Точная настройка

После предварительной подготовки предварительно обученные представления (BiT-S/M/L) оцениваются на хорошо зарекомендовавших себя бенчмарках: ImageNet-1K, CIFAR-10/100, Oxford-IIIT Pet и Oxford Flowers-102. На рис. 1 представлена ​​количественная оценка BiT на ImageNet-1K, Oxford-IIIT Pet и CIFAR-100.

Инженерные советы

Вклад основного документа представляет собой набор советов для достижения наилучшей производительности с минимальной настройкой гиперпараметров.

Совет 1.

Во время предварительного обучения важно масштабировать размер как модели, так и набора данных. Мало того, что преимущества обучения модели большого размера на небольшом наборе данных ограничены, также ограниченная (или даже отрицательная) польза от обучения небольшой модели на большом наборе данных. На рис. 2 показана небольшая модель (ResNet-50), производительность которой с JFT-300M ниже, чем у той же модели с ImageNet-21k/14M. Не следует ошибочно делать вывод, что большие наборы данных не приносят никакой дополнительной пользы. Вместо этого следует масштабировать размер как модели, так и набора данных, чтобы извлечь выгоду из большого набора данных.

Совет 2.

Во время предварительного обучения достаточный вычислительный бюджет имеет решающее значение для изучения высокопроизводительных моделей на больших наборах данных. Стандартный график обучения ILSVRC-2012 обрабатывает примерно 100 миллионов изображений (1,28 М изображений × 90 эпох). Тем не менее, тот же самый график обучения изучает худшую модель применительно к ImageNet-21k. На рис. 3 показано, что увеличение вычислительного бюджета не только восстанавливает производительность ILSVRC-2012, но и значительно превосходит ее. В документе утверждается, что этот большой вычислительный бюджет мог помешать широкому внедрению ImageNet-21k для предварительного обучения.

Чтобы еще больше подчеркнуть важность достаточного вычислительного бюджета, на рис. 4 показано, что ошибка проверки JFT-300M может не улучшаться в течение длительного времени (8 недель GPU), хотя модель все еще улучшается, о чем свидетельствует более длительный временной интервал.

Совет № 3.

Во время предварительной тренировки важен большой спад веса. Небольшое уменьшение веса может привести к очевидному ускорению сходимости, как показано на рис. 5 (оранжевая кривая). Однако небольшое снижение веса в конечном итоге приводит к ухудшению конечной модели.

Небольшое снижение веса приводит к увеличению нормы веса, что, в свою очередь, снижает влияние заданной скорости обучения lr. Другими словами, маленький lr не может двигать большие веса, выросшие из-за уменьшения веса. Таким образом, небольшое затухание веса создает впечатление более быстрой сходимости, но в конечном итоге препятствует дальнейшему продвижению. Чтобы избежать этого эффекта, требуется достаточно большое уменьшение веса.

Совет № 4.

Как во время предварительной подготовки, так и во время тонкой настройки замените пакетную нормализацию (BN) на групповую нормализацию (GN) и стандартизацию веса (WS). Пакетная нормализация ухудшается при небольших размерах пакетов для каждого устройства, которые ожидаются с большими моделями (например, ResNet-152). Для решения этой проблемы можно собрать статистику BN по всем ускорителям. Однако при этом возникают две новые проблемы: (1) было показано, что вычисление статистики BN для больших партий вредит обобщению; (2) использование глобального BN требует множества агрегаций между ускорителями, что увеличивает задержку. На рис. 6 показано, что GN+WS значительно превосходит BN, поддерживая большой общий размер партии.

Совет № 5.

Во время тонкой настройки не используйте различные методы регуляризации, такие как снижение веса и отсев. В документе исправлено большинство гиперпараметров (например, скорость обучения, оптимизатор, импульс) для различных последующих задач. Для каждой задачи настраиваются только три гиперпараметра: (1) продолжительность графика обучения, (2) разрешение и (3) следует ли использовать MixUp или нет.

Совет № 6.

Во время предварительного обучения аугментация Mixup [2] бесполезна из-за большого количества данных. Смешивание полезно при точной настройке наборов данных среднего или большого размера (20–500 тыс.), Но не для небольших наборов данных (‹ 20 тыс.).

С помощью этих советов BiT достигает SOTA и превосходит как обобщенные, так и специализированные представления, как показано на рис. 7. Обобщенные подходы предварительно обучаются независимо от последующих задач, в то время как специализированные подходы полагаются на вспомогательное обучение, зависящее от задачи. Представления специалистов обеспечивают лучшую производительность, но требуют больших затрат на обучение для каждой задачи. Напротив, обобщенные представления требуют крупномасштабного обучения только один раз, после чего следует малозатратный этап тонкой настройки.

Мои комментарии

  • Статья [1] хорошо организована и содержит ценные советы для тех, кто интересуется предварительным обучением. В то время как в документе предполагается полностью контролируемая предварительная подготовка, документ также полезен для тех, кто занимается самостоятельным обучением.
  • В статье представлен глубокий анализ различных задач (например, классификация и обнаружение объектов). Тем не менее, во всех экспериментах используются естественные изображения и архитектура ResNet.
  • Некоторые из предлагаемых приемов зависят от архитектуры. Например, замена BatchNorm на GroupNorm+Weight Standardization работает для архитектуры ResNet, но не для последних архитектур (например, ViT), которые используют LayerNorm.

Ссылки

  1. Колесников А., Бейер Л., Чжай Х., Пучсервер Дж., Юнг Дж., Гелли С. и Хоулсби Н., 2020. Обучение Большая передача (бит): общее визуальное представление. ЕСВ 2020.
  2. Чжан Х., Сиссе М., Дофин Ю.Н. и Лопес-Пас, Д., Смешение: Помимо минимизации эмпирического риска. ICLR 2018.