Об этом посте
В этом посте я представляю недавно опубликованный метод обучения с самостоятельным наблюдением в рамках, похожих на маскированные языковые модели. В этой статье представлены две статьи: MAE (He et al., 2021) и SimMIM (Xie et al., 2021). Каждую из них можно кратко резюмировать следующим образом.
MAE
Авторы предложили MAE (Masked Autoencoders), который представляет собой самоконтролируемый метод обучения, который маскирует изображение и восстанавливает его. Несмотря на то, что в нем используется модель ViT, для которой требуется большой объем данных, можно достичь точности 87,8% в ImageNet только с данными ImageNet. Производительность выше, чем у существующих методов обучения с самоконтролем, таких как DINO и MoCo-v3,
СимМИМ
Это исследование предварительного обучения с использованием преобразователей для выполнения задачи прогнозирования замаскированных областей изображения с использованием регрессии. Он имеет очень простую структуру и может превзойти существующие методы обучения с самоконтролем, такие как DINO.
Содержание этого поста
- Самоконтролируемое обучение
- Трансформер и трансформер зрения
- МАЭ и SimMIM
- Заключение
Самоконтролируемый метод обучения: SimCLR
Во-первых, давайте посмотрим на SimCLR как на представителя методов обучения с самоконтролем изображений для задач компьютерного зрения. SimCLR — одна из самых популярных моделей самоконтролируемого обучения компьютерному зрению в последние годы.
Что такое самоконтролируемое обучение?
Самоконтролируемое обучение — это метод обучения, который позволяет получать полезные представления без использования ярлыков учителя. Обычно обучение с самоконтролем используется в качестве метода предварительного обучения с целью получения хорошей производительности в последующих задачах (задачах, которые должны выполняться после предварительного обучения), таких как классификация изображений и обнаружение объектов.
Обычно мы оцениваем эффективность обучения с самоконтролем путем точной настройки обученной модели или выполнения классификации с использованием линейной регрессии полученного представления для последующих задач, таких как классификация изображений.
SimCLR и контрастное обучение
В этом разделе кратко представлена SimCLR, один из самых популярных методов самоконтролируемого обучения задачам компьютерного зрения. SimCLR использует структуру, называемую контрастным обучением, для изучения хороших представлений изображений без меток.
В контрастном обучении сначала создайте данные парного изображения с применением различных дополнений данных для каждого изображения. Затем обновите веса сети, чтобы представления парных данных изображения были ближе друг к другу, а непарные данные — дальше друг от друга.
Например, изображение ниже иллюстрирует концепцию контрастного обучения с использованием стула и собаки. Стул и собака подвергаются двум различным дополнениям данных, и парные изображения учатся приближаться в пространстве представления, если источником является одно и то же изображение, и отдаляться, если источник другой.
В SimCLR очень хорошие представления изображений получаются с помощью контрастного обучения. На следующем рисунке показан результат линейной регрессии с использованием полученных представлений изображений. Даже с очень простой моделью линейной регрессии точность сравнима с результатами контролируемых (ResNet50), что означает очень хорошее сжатие информации об изображении.
Стратегия «создания данных парных изображений с применением различных дополнений данных и сравнения результатов», как контрастное обучение, широко используется в обучении с самоконтролем для задач компьютерного зрения.
Аналогичные примеры с использованием контрастного обучения включают MoCo v2 (Chen et al., 2020), а примеры, не использующие контрастное обучение, включают BYOL (Grill et al., 2020) и DINO (Caron et al., 2021).
DINO — это метод обучения с самостоятельным наблюдением, в котором используются преобразователи зрения и дистилляция, как описано ниже. В отличие от SimCLR, DINO не использует контрастное обучение, но использует ту же стратегию, что и SimCLR, которая заключается в создании данных парных изображений с применением различных расширений данных и сравнении результатов.
Такая стратегия «создания данных парных изображений с применением различных дополнений данных и сравнения результатов» широко используется в методах обучения с самоконтролем на основе изображений.
Преобразователь зрения
Прежде всего, я хотел бы объяснить ViT (Vision Transformer), который является предметом сравнения в этой статье, и трансформатор, на котором он основан. Итак, начнем с трансформатора.
Трансформер
Трансформер — модель, предложенная в статье Внимание — это все, что вам нужно (Vaswani et al., 2017). Это модель, которая использует механизм, называемый самостоятельным вниманием, который не является ни CNN, ни LSTM, и строит модель Transformer, чтобы значительно превзойти существующие методы. Результаты намного лучше, чем существующие методы.
Обратите внимание, что часть, помеченная Multi-Head Attention на рисунке ниже, является основной частью Transformer, но она также использует пропускное соединение, такое как ResNet.
Механизм внимания, используемый в Transformer, использует три переменные: Q (запрос), K(ключ) и V (значение). Проще говоря, он вычисляет вес внимания токена запроса (токен: что-то вроде слова) и токена ключа и умножает значение, связанное с каждым ключом. Короче говоря, он вычисляет связь (вес внимания) между токеном запроса и токеном ключа и умножает значение, связанное с каждым ключом.
Определяя вычисление Q, K, V как одну головку, механизм внимания с несколькими головками определяется следующим образом. Механизм внимания (с одной головкой) на приведенном выше рисунке использует Q и K как есть. Тем не менее, в механизме внимания с несколькими головками каждая головка имеет свою проекционную матрицу W_i^Q, W_i^K и W_i^V, и они рассчитывают веса внимания, используя значения характеристик, спроецированные с помощью этих матриц.
Многоголовое внимание
Если Q, K, V, используемые в этом механизме внимания, рассчитываются на основе одних и тех же входных данных, это называется самовниманием. С другой стороны, верхняя часть декодера Transformer не является механизмом «самостоятельного» внимания, поскольку она вычисляет внимание с помощью Q от кодировщика и K и V из декодера.
Изображение фактического приложения показано на рисунке ниже. На рисунке показана визуализация весов внимания, рассчитанных для каждого ключевого токена с использованием слова «делать» в качестве запроса. Трансформатор использует механизм самоконтроля с несколькими головками для распространения на более поздние уровни, и каждая головка изучает разные зависимости. Ключевые слова на рисунке ниже окрашены, чтобы представить вес внимания каждой головы.
Трансформатор зрения (ViT)
Vision Transformer (ViT) — модель, которая применяет Transformer к задаче классификации изображений и была предложена в октябре 2020 года (Досовицкий и др., 2020). Архитектура модели почти такая же, как у оригинального Transformer, но с изюминкой, позволяющей обрабатывать изображения как входные данные, как при обработке естественного языка.
Во-первых, ViT делит изображение на N «патчей» размером, например, 16x16. Поскольку патчи сами по себе представляют собой 3D-данные (высота x ширина x количество каналов), они не могут обрабатываться непосредственно преобразователем, работающим с языком (2D), поэтому он сглаживает их и создает линейную проекцию для преобразования в 2D-данные. Таким образом, каждый патч можно рассматривать как токен, который можно вводить в Transformer.
Кроме того, ViT использует стратегию сначала предварительной подготовки, а затем тонкой настройки. ViT предварительно обучен JFT-300M, набору данных, содержащему 300 миллионов изображений, а затем настроен на последующие задачи, такие как ImageNet. ViT — первая модель чистого трансформатора, которая достигла производительности SotA в ImageNet, и это привело к массовому всплеску исследований трансформаторов применительно к задачам компьютерного зрения.
Однако для обучения ViT требуется большой объем данных. Преобразователи менее точны при меньшем количестве данных, но становятся более точными при большем количестве данных и превосходят CNN при предварительном обучении на JFT-300M. Для получения более подробной информации, пожалуйста, обратитесь к оригинальной статье.
Самоконтролируемые методы обучения, такие как маскированные языковые модели для изображений
Наконец, я представлю два метода, MAE и SimMIM, которые можно назвать «версией компьютерного зрения маскированных языковых моделей».
Как упоминалось выше, основным направлением обучения с самоконтролем для задач компьютерного зрения было обучение с самоконтролем с использованием стратегии «создания данных парных изображений с применением различных дополнений данных и сравнения результатов». Эти два метода, однако, используют стратегию «маскирования части изображения и прогнозирования этого» для самоконтролируемого обучения, такого как маскированная языковая модель.
Маскированные автокодировщики
Начнем с того, что MAE (Masked Autoencoders) — это модель, которая была опубликована 11 ноября 2021 года. MAE делит изображение на патчи и выполняет задачу предсказания замаскированных частей изображения в качестве предварительного обучения. Характерно, что на декодер подаются входные данные, включая замаскированные части, для восстановления исходного изображения, но на кодер не подаются замаскированные части.
Структура модели
Рассмотрим структуру модели. Во-первых, для части энкодера используются трансформаторы. Маскированная часть не вводится кодировщику, поэтому преимущество, по-видимому, в том, что мы можем использовать огромную модель при экономии памяти. В этой статье коэффициент маскирования составляет около 75%, и, учитывая, что память системы самоконтроля пропорциональна четвертой степени размера изображения, она использует только 1/16 (1/4²) памяти по сравнению с случай, когда все изображение включено.
Декодер тоже использует преобразователи, но он намного легче энкодера, и каждый токен требует менее 10% вычислений энкодера. Обратите внимание, что декодер используется только для предварительной подготовки частичной реконструкции маски.
Результаты
Во-первых, давайте посмотрим на задачу реконструкции изображения (задача предварительной подготовки). В этом эксперименте результаты представляют собой реконструкцию изображения проверочного набора ImageNet. Мы видим, что изображение успешно реконструировано, хотя 80% изображения замаскировано.
Далее, давайте посмотрим на влияние коэффициента маски. На рисунке ниже показан эксперимент по соотношению масок и точности. Мы видим, что чем выше коэффициент маски, тем лучше результаты в последующей задаче, задаче классификации изображений.
Далее давайте посмотрим на результаты последующих задач. Первый — классификация изображений. Он дает отличные результаты по сравнению с самостоятельным методом обучения с использованием ViT.
Наконец, есть обнаружение объектов и семантическая сегментация. Этот также превосходит существующие методы обучения с самоконтролем и обучение с учителем.
СимМИМ
Далее я представляю SimMIM, о котором было объявлено 18 ноября 2021 года. Как и MAE, SimMIM маскирует изображение. Однако, в отличие от MAE, SimMIM также включает маскированное изображение в кодировщик и использует его как механизм прямого предсказания. Он очень похож на MAE, но MAE не указан в качестве справочного материала, вероятно, потому, что он был опубликован очень близко к MAE.
Архитектура модели
Архитектура модели несложная, можно использовать трансформаторные модели ViT и Swin (Liu et al, 2021). Голова однослойного предсказания, которая является декодером в MAE, использует простую линейную модель.
Хотя декодеры на основе трансформаторов, такие как MAE (например, Swin-T), были опробованы, простейшая линейная модель превзошла их как по точности, так и по вычислительным затратам.
Результаты
Во-первых, вот результаты классификации изображений. По результатам тонкой настройки SimMIM превосходит обучение с учителем.
Стратегия маскирования
Далее рассмотрим методы маскирования. На рисунке 3 ниже показано исследование того, как методы маскирования влияют на обучение представлению. Авторы используют показатель под названием AvgDist для изучения влияния стратегий масок. AvgDist — это среднее расстояние между замаскированными пикселями и видимыми пикселями.
Рисунок 3(b) показывает, что AvgDist не годится, когда он слишком высок или слишком низок. Авторы предполагают, что это связано с тем, что высокое значение AvgDist делает отслеживание слишком сложным, а низкое значение AvgDist делает его слишком простым.
Отличие от BERT
BERT (Devlin et al., 2018]) — это модель НЛП, использующая метод предварительного обучения, который маскирует данные и угадывает их (маскированная языковая модель). MAE и SimMIM также токенизируют изображения (поскольку они основаны на ViT), поэтому, как и у BERT, задача состоит в том, чтобы маскировать и прогнозировать токен.
Однако BERT использует низкий коэффициент маски 15%, в то время как MAE и SimMIM используют высокий коэффициент маски 50–80%. В статьях напрямую не обсуждается, почему высокий коэффициент маски эффективен в отличие от BERT, но это может быть связано с тем, что, в отличие от документов, изображения имеют двумерную структуру, поэтому можно учиться даже при высоком коэффициенте маски, поскольку маскируемая область может быть выводится как из горизонтальной, так и из вертикальной информации.
Заключение
В этом посте я представил MAE и SimMIM, которые используют стратегию «маскирования части изображения и прогнозирования этого», как маскированную языковую модель, в отличие от традиционной стратегии «создания парных данных изображения с применением различных дополнений данных и сравнивая результат».
Поскольку эти методы легко использовать с моделями на основе ViT, которые набирают обороты в последние годы, методы предварительного обучения, подобные моделям маскированного языка, могут получить более широкое распространение в будущем.
— — — — — — — — — — — — — — — — — — –
🌟Выкладываю еженедельные рассылки! Пожалуйста, подпишитесь!🌟
— — — — — — — — — — — — — — — — — — –
Другие блоги
Что самое важное в Vision Transformer?
В этом сообщении блога описывается статья «Все, что вам нужно — это патчи? и подумайте, что важно в ViT.medium.com»
— — — — — — — — — — — — — — — — — — –
Обо мне
Инженер-технолог/Инженер по машинному обучению/Ученый по данным/Магистр физики/ http://github.com/AkiraTOSEI/
Твиттер: https://twitter.com/AkiraTOSEI