Аппетит к данным был успешно решен в обработке естественного языка (NLP) с помощью предварительного обучения с самоконтролем. Решения, основанные на авторегрессионном языковом моделировании в GPT и маскированном автокодировании в BERT, концептуально просты: они удаляют часть данных и учатся предсказывать удаляемый контент.

Идея маскированных автоэнкодеров, формы более общих шумоподавляющих автоэнкодеров, естественна и применима также в компьютерном зрении. Но что отличает маскированное автокодирование для зрения и языка?

  • С точки зрения зрения, сверточные сети доминировали в последнее десятилетие. Свертки обычно работают с регулярными сетками, и интегрировать «индикаторы», такие как токены маски или позиционные вложения, в сверточные сети непросто. Однако этот архитектурный пробел был устранен с появлением Vision Transformers (ViT).
  • Плотность информации различается между языком и зрением. Языки — это генерируемые человеком сигналы, обладающие высокой семантикой и насыщенностью информацией. При обучении модели предсказывать только несколько пропущенных слов в предложении эта задача, по-видимому, вызывает сложное понимание языка. Изображения, напротив, являются естественными сигналами с большой пространственной избыточностью — например, отсутствующий фрагмент может быть восстановлен из соседних фрагментов с небольшим пониманием частей, объектов и сцен на высоком уровне. Чтобы преодолеть эту разницу и поощрить изучение полезных функций, мы показываем, что в компьютерном зрении хорошо работает простая стратегия: маскирование очень большого количества случайных участков. Эта стратегия в значительной степени снижает избыточность и создает сложную задачу самоконтроля, которая требует целостного понимания, выходящего за рамки низкоуровневой статистики изображений.
  • Декодер автоэнкодера, который отображает скрытое представление обратно на вход, играет другую роль при восстановлении текста и изображений.

На основе этого анализа MAE маскирует случайные участки входного изображения и восстанавливает отсутствующие участки в пространстве пикселей. Он имеет асимметричную конструкцию кодер-декодер. Наш кодировщик работает только с видимым подмножеством патчей (без токенов маски), а наш декодер легковесен и реконструирует ввод из скрытого представления вместе с токенами маски.

Архитектура

Маскирование После ViT изображение делится на обычные неперекрывающиеся участки. Затем выбирается подмножество
исправлений, а остальные маскируются.

Кодер MAE Кодировщик представляет собой ViT, но применяется только к видимым немаскированным патчам. Таким образом, кодировщик работает только с небольшим подмножеством (~ 25%) полного et. Маскированные патчи удалены, токены маски не используются. Это позволяет обучать очень большие энкодеры с небольшой долей вычислительных ресурсов и памяти. Полный набор обрабатывается легким декодером.

Декодер MAE Входными данными для декодера MAE является полный набор токенов, состоящий из (i) закодированных видимых патчей и (ii) токенов маски. Каждый токен маски представляет собой общий изученный вектор, который указывает на наличие отсутствующего исправления, которое необходимо предсказать. Позиционные вложения добавляются ко всем токенам в этом полном наборе; без этого токены маски не имели бы информации о своем местоположении на изображении. Декодер имеет другую серию блоков Transformer. Декодер MAE используется только во время предварительной подготовки для выполнения задачи реконструкции изображения. Таким образом, архитектура декодера может гибко проектироваться таким образом, который не зависит от конструкции кодера.

Цель реконструкции MAE восстанавливает входные данные, прогнозируя значения пикселей для каждого замаскированного участка. Каждый элемент на выходе декодера представляет собой вектор значений пикселей, представляющих патч. Последний слой декодера представляет собой линейную проекцию, количество выходных каналов которой равно количеству значений пикселей в патче. Выход декодера преобразуется для формирования реконструированного изображения. Функция потерь вычисляет среднеквадратичную ошибку (MSE) между реконструированным и исходным изображениями в пространстве пикселей. Потери вычисляются только для замаскированных патчей, аналогично BERT.

Бумага

Маскированные автоэнкодеры — масштабируемые обучающиеся видения: 2111.06377

Выполнение

Маскированный автоэнкодер — преобразователь зрения

Просмотреть все темы этой серии здесь