MAE/SimMIM для предварительного обучения, как замаскированная языковая модель

Об этом посте

В этом посте я представляю недавно опубликованный метод обучения с самостоятельным наблюдением в рамках, похожих на маскированные языковые модели. В этой статье представлены две статьи: MAE (He et al., 2021) и SimMIM (Xie et al., 2021). Каждую из них можно кратко резюмировать следующим образом.

MAE

Авторы предложили MAE (Masked Autoencoders), который представляет собой самоконтролируемый метод обучения, который маскирует изображение и восстанавливает его. Несмотря на то, что в нем используется модель ViT, для которой требуется большой объем данных, можно достичь точности 87,8% в ImageNet только с данными ImageNet. Производительность выше, чем у существующих методов обучения с самоконтролем, таких как DINO и MoCo-v3,

СимМИМ

Это исследование предварительного обучения с использованием преобразователей для выполнения задачи прогнозирования замаскированных областей изображения с использованием регрессии. Он имеет очень простую структуру и может превзойти существующие методы обучения с самоконтролем, такие как DINO.

Содержание этого поста

Самоконтролируемое обучение
Трансформер и трансформер зрения
МАЭ и SimMIM
Заключение

Самоконтролируемый метод обучения: SimCLR

Во-первых, давайте посмотрим на SimCLR как на представителя методов обучения с самоконтролем изображений для задач компьютерного зрения. SimCLR — одна из самых популярных моделей самоконтролируемого обучения компьютерному зрению в последние годы.

Что такое самоконтролируемое обучение?

Самоконтролируемое обучение — это метод обучения, который позволяет получать полезные представления без использования ярлыков учителя. Обычно обучение с самоконтролем используется в качестве метода предварительного обучения с целью получения хорошей производительности в последующих задачах (задачах, которые должны выполняться после предварительного обучения), таких как классификация изображений и обнаружение объектов.

Обычно мы оцениваем эффективность обучения с самоконтролем путем точной настройки обученной модели или выполнения классификации с использованием линейной регрессии полученного представления для последующих задач, таких как классификация изображений.

SimCLR и контрастное обучение

В этом разделе кратко представлена SimCLR, один из самых популярных методов самоконтролируемого обучения задачам компьютерного зрения. SimCLR использует структуру, называемую контрастным обучением, для изучения хороших представлений изображений без меток.

В контрастном обучении сначала создайте данные парного изображения с применением различных дополнений данных для каждого изображения. Затем обновите веса сети, чтобы представления парных данных изображения были ближе друг к другу, а непарные данные — дальше друг от друга.

Например, изображение ниже иллюстрирует концепцию контрастного обучения с использованием стула и собаки. Стул и собака подвергаются двум различным дополнениям данных, и парные изображения учатся приближаться в пространстве представления, если источником является одно и то же изображение, и отдаляться, если источник другой.

В SimCLR очень хорошие представления изображений получаются с помощью контрастного обучения. На следующем рисунке показан результат линейной регрессии с использованием полученных представлений изображений. Даже с очень простой моделью линейной регрессии точность сравнима с результатами контролируемых (ResNet50), что означает очень хорошее сжатие информации об изображении.

Стратегия «создания данных парных изображений с применением различных дополнений данных и сравнения результатов», как контрастное обучение, широко используется в обучении с самоконтролем для задач компьютерного зрения.

Аналогичные примеры с использованием контрастного обучения включают MoCo v2 (Chen et al., 2020), а примеры, не использующие контрастное обучение, включают BYOL (Grill et al., 2020) и DINO (Caron et al., 2021).

DINO — это метод обучения с самостоятельным наблюдением, в котором используются преобразователи зрения и дистилляция, как описано ниже. В отличие от SimCLR, DINO не использует контрастное обучение, но использует ту же стратегию, что и SimCLR, которая заключается в создании данных парных изображений с применением различных расширений данных и сравнении результатов.

Такая стратегия «создания данных парных изображений с применением различных дополнений данных и сравнения результатов» широко используется в методах обучения с самоконтролем на основе изображений.

Преобразователь зрения

Прежде всего, я хотел бы объяснить ViT (Vision Transformer), который является предметом сравнения в этой статье, и трансформатор, на котором он основан. Итак, начнем с трансформатора.

Трансформер

Трансформер — модель, предложенная в статье Внимание — это все, что вам нужно (Vaswani et al., 2017). Это модель, которая использует механизм, называемый самостоятельным вниманием, который не является ни CNN, ни LSTM, и строит модель Transformer, чтобы значительно превзойти существующие методы. Результаты намного лучше, чем существующие методы.

Обратите внимание, что часть, помеченная Multi-Head Attention на рисунке ниже, является основной частью Transformer, но она также использует пропускное соединение, такое как ResNet.

Механизм внимания, используемый в Transformer, использует три переменные: Q (запрос), K(ключ) и V (значение). Проще говоря, он вычисляет вес внимания токена запроса (токен: что-то вроде слова) и токена ключа и умножает значение, связанное с каждым ключом. Короче говоря, он вычисляет связь (вес внимания) между токеном запроса и токеном ключа и умножает значение, связанное с каждым ключом.

Определяя вычисление Q, K, V как одну головку, механизм внимания с несколькими головками определяется следующим образом. Механизм внимания (с одной головкой) на приведенном выше рисунке использует Q и K как есть. Тем не менее, в механизме внимания с несколькими головками каждая головка имеет свою проекционную матрицу W_i^Q, W_i^K и W_i^V, и они рассчитывают веса внимания, используя значения характеристик, спроецированные с помощью этих матриц.

Многоголовое внимание

Если Q, K, V, используемые в этом механизме внимания, рассчитываются на основе одних и тех же входных данных, это называется самовниманием. С другой стороны, верхняя часть декодера Transformer не является механизмом «самостоятельного» внимания, поскольку она вычисляет внимание с помощью Q от кодировщика и K и V из декодера.

Изображение фактического приложения показано на рисунке ниже. На рисунке показана визуализация весов внимания, рассчитанных для каждого ключевого токена с использованием слова «делать» в качестве запроса. Трансформатор использует механизм самоконтроля с несколькими головками для распространения на более поздние уровни, и каждая головка изучает разные зависимости. Ключевые слова на рисунке ниже окрашены, чтобы представить вес внимания каждой головы.

Трансформатор зрения (ViT)

Vision Transformer (ViT) — модель, которая применяет Transformer к задаче классификации изображений и была предложена в октябре 2020 года (Досовицкий и др., 2020). Архитектура модели почти такая же, как у оригинального Transformer, но с изюминкой, позволяющей обрабатывать изображения как входные данные, как при обработке естественного языка.

Во-первых, ViT делит изображение на N «патчей» размером, например, 16x16. Поскольку патчи сами по себе представляют собой 3D-данные (высота x ширина x количество каналов), они не могут обрабатываться непосредственно преобразователем, работающим с языком (2D), поэтому он сглаживает их и создает линейную проекцию для преобразования в 2D-данные. Таким образом, каждый патч можно рассматривать как токен, который можно вводить в Transformer.

Кроме того, ViT использует стратегию сначала предварительной подготовки, а затем тонкой настройки. ViT предварительно обучен JFT-300M, набору данных, содержащему 300 миллионов изображений, а затем настроен на последующие задачи, такие как ImageNet. ViT — первая модель чистого трансформатора, которая достигла производительности SotA в ImageNet, и это привело к массовому всплеску исследований трансформаторов применительно к задачам компьютерного зрения.

Однако для обучения ViT требуется большой объем данных. Преобразователи менее точны при меньшем количестве данных, но становятся более точными при большем количестве данных и превосходят CNN при предварительном обучении на JFT-300M. Для получения более подробной информации, пожалуйста, обратитесь к оригинальной статье.

Самоконтролируемые методы обучения, такие как маскированные языковые модели для изображений

Наконец, я представлю два метода, MAE и SimMIM, которые можно назвать «версией компьютерного зрения маскированных языковых моделей».

Как упоминалось выше, основным направлением обучения с самоконтролем для задач компьютерного зрения было обучение с самоконтролем с использованием стратегии «создания данных парных изображений с применением различных дополнений данных и сравнения результатов». Эти два метода, однако, используют стратегию «маскирования части изображения и прогнозирования этого» для самоконтролируемого обучения, такого как маскированная языковая модель.

Маскированные автокодировщики

Начнем с того, что MAE (Masked Autoencoders) — это модель, которая была опубликована 11 ноября 2021 года. MAE делит изображение на патчи и выполняет задачу предсказания замаскированных частей изображения в качестве предварительного обучения. Характерно, что на декодер подаются входные данные, включая замаскированные части, для восстановления исходного изображения, но на кодер не подаются замаскированные части.

Структура модели

Рассмотрим структуру модели. Во-первых, для части энкодера используются трансформаторы. Маскированная часть не вводится кодировщику, поэтому преимущество, по-видимому, в том, что мы можем использовать огромную модель при экономии памяти. В этой статье коэффициент маскирования составляет около 75%, и, учитывая, что память системы самоконтроля пропорциональна четвертой степени размера изображения, она использует только 1/16 (1/4²) памяти по сравнению с случай, когда все изображение включено.

Декодер тоже использует преобразователи, но он намного легче энкодера, и каждый токен требует менее 10% вычислений энкодера. Обратите внимание, что декодер используется только для предварительной подготовки частичной реконструкции маски.

Результаты

Во-первых, давайте посмотрим на задачу реконструкции изображения (задача предварительной подготовки). В этом эксперименте результаты представляют собой реконструкцию изображения проверочного набора ImageNet. Мы видим, что изображение успешно реконструировано, хотя 80% изображения замаскировано.

Далее, давайте посмотрим на влияние коэффициента маски. На рисунке ниже показан эксперимент по соотношению масок и точности. Мы видим, что чем выше коэффициент маски, тем лучше результаты в последующей задаче, задаче классификации изображений.

Далее давайте посмотрим на результаты последующих задач. Первый — классификация изображений. Он дает отличные результаты по сравнению с самостоятельным методом обучения с использованием ViT.

Наконец, есть обнаружение объектов и семантическая сегментация. Этот также превосходит существующие методы обучения с самоконтролем и обучение с учителем.

СимМИМ

Далее я представляю SimMIM, о котором было объявлено 18 ноября 2021 года. Как и MAE, SimMIM маскирует изображение. Однако, в отличие от MAE, SimMIM также включает маскированное изображение в кодировщик и использует его как механизм прямого предсказания. Он очень похож на MAE, но MAE не указан в качестве справочного материала, вероятно, потому, что он был опубликован очень близко к MAE.

Архитектура модели

Архитектура модели несложная, можно использовать трансформаторные модели ViT и Swin (Liu et al, 2021). Голова однослойного предсказания, которая является декодером в MAE, использует простую линейную модель.

Хотя декодеры на основе трансформаторов, такие как MAE (например, Swin-T), были опробованы, простейшая линейная модель превзошла их как по точности, так и по вычислительным затратам.

Результаты

Во-первых, вот результаты классификации изображений. По результатам тонкой настройки SimMIM превосходит обучение с учителем.

Стратегия маскирования
Далее рассмотрим методы маскирования. На рисунке 3 ниже показано исследование того, как методы маскирования влияют на обучение представлению. Авторы используют показатель под названием AvgDist для изучения влияния стратегий масок. AvgDist — это среднее расстояние между замаскированными пикселями и видимыми пикселями.

Рисунок 3(b) показывает, что AvgDist не годится, когда он слишком высок или слишком низок. Авторы предполагают, что это связано с тем, что высокое значение AvgDist делает отслеживание слишком сложным, а низкое значение AvgDist делает его слишком простым.

Отличие от BERT

BERT (Devlin et al., 2018]) — это модель НЛП, использующая метод предварительного обучения, который маскирует данные и угадывает их (маскированная языковая модель). MAE и SimMIM также токенизируют изображения (поскольку они основаны на ViT), поэтому, как и у BERT, задача состоит в том, чтобы маскировать и прогнозировать токен.

Однако BERT использует низкий коэффициент маски 15%, в то время как MAE и SimMIM используют высокий коэффициент маски 50–80%. В статьях напрямую не обсуждается, почему высокий коэффициент маски эффективен в отличие от BERT, но это может быть связано с тем, что, в отличие от документов, изображения имеют двумерную структуру, поэтому можно учиться даже при высоком коэффициенте маски, поскольку маскируемая область может быть выводится как из горизонтальной, так и из вертикальной информации.

Заключение

В этом посте я представил MAE и SimMIM, которые используют стратегию «маскирования части изображения и прогнозирования этого», как маскированную языковую модель, в отличие от традиционной стратегии «создания парных данных изображения с применением различных дополнений данных и сравнивая результат».

Поскольку эти методы легко использовать с моделями на основе ViT, которые набирают обороты в последние годы, методы предварительного обучения, подобные моделям маскированного языка, могут получить более широкое распространение в будущем.

— — — — — — — — — — — — — — — — — — –