1.BEiT v2: Моделирование маскированных изображений с векторно-квантованными визуальными токенизаторами(arXiv)

Автор:Чжилян Пэн, Ли Дун, Ханбо Бао, Цисян Е, Фуру Вэй

Аннотация: Моделирование маскированных изображений (MIM) продемонстрировало впечатляющие результаты в обучении репрезентации с самостоятельным наблюдением путем восстановления поврежденных фрагментов изображения. Однако большинство существующих исследований работают с пикселями изображения низкого уровня, что препятствует использованию семантики высокого уровня для моделей представления. В этой работе мы предлагаем использовать семантически богатый визуальный токенизатор в качестве цели реконструкции для маскированного предсказания, обеспечивая систематический способ продвижения MIM с уровня пикселей на семантический уровень. В частности, мы предлагаем векторно-квантованную дистилляцию знаний для обучения токенизатора, который дискретизирует непрерывное семантическое пространство в компактные коды. Затем мы предварительно обучаем трансформеры зрения, предсказывая исходные визуальные маркеры для фрагментов замаскированного изображения. Кроме того, мы вводим стратегию агрегации исправлений, которая связывает дискретные исправления изображений для улучшения глобального семантического представления. Эксперименты по классификации изображений и семантической сегментации показывают, что BEiT v2 превосходит все сравниваемые методы MIM. На ImageNet-1K (размер 224) BEiT v2 базового размера достигает 85,5 % точности при точной настройке и 80,1 % точности при линейных измерениях. Крупногабаритный BEiT v2 обеспечивает 87,3% точности для точной настройки ImageNet-1K (размер 224) и 56,7% MIOU для ADE20K для семантической сегментации. Код и предварительно обученные модели доступны по адресу https://aka.ms/beitv2.

2. О масштабировании данных в моделировании маскированных изображений(arXiv)

Автор: Чжэнда Се, Чжэн Чжан, Юэ Цао, Ютун Линь, Исюань Вэй, Ци Дай, Хань Ху.

Аннотация. Важной целью самоконтролируемого обучения является предоставление возможности предварительному обучению модели использовать почти неограниченные данные. Однако есть подозрения, что один метод, который недавно стал популярным, а именно моделирование маскированных изображений (MIM), не может извлечь выгоду из больших данных. В этой работе мы разрушаем это заблуждение с помощью обширных экспериментов с масштабами данных от 10% от ImageNet-1K до полного ImageNet-22K, размерами моделей от 49 миллионов до 1 миллиарда и длительностью обучения от 125 000 до 500 000 итераций. . Наше исследование показывает, что: (i) Моделирование маскированных изображений также требует больших данных. Мы заметили, что очень большие модели были переобучены относительно небольшими данными; (ii) Продолжительность обучения имеет значение. Большие модели, обученные с помощью моделирования изображений в маске, могут извлечь выгоду из большего количества данных при более длительном обучении; (iii) Потеря проверки при предварительном обучении является хорошим показателем для измерения того, насколько хорошо модель работает для точной настройки нескольких задач. Это наблюдение позволяет нам заранее оценивать предварительно обученные модели без необходимости проводить дорогостоящую оценку последующих задач методом проб и ошибок. Мы надеемся, что наши результаты улучшат понимание моделирования маскированных изображений с точки зрения возможности масштабирования.

3. HiViT: Преобразователь иерархического зрения в сочетании с моделированием маскированных изображений(arXiv)

Автор: Сяосун Чжан, Юньцзе Тянь, Вэй Хуан, Цисян Е, Ци Дай, Линси Се, Ци Тянь

Аннотация: Недавно моделирование маскированных изображений (MIM) предложило новую методологию самоконтролируемой предварительной подготовки преобразователей зрения. Ключевой идеей эффективной реализации является отбрасывание патчей маскированного изображения (или токенов) по всей целевой сети (кодировщику), что требует, чтобы кодировщик был преобразователем простого зрения (например, ViT), хотя и иерархическим преобразователем зрения (например, Swin Transformer). ) имеют потенциально лучшие свойства при формулировании входных данных видения. В этой статье мы предлагаем новый дизайн иерархических преобразователей зрения под названием HiViT (сокращение от Hierarchical ViT), который отличается высокой эффективностью и хорошей производительностью в MIM. Ключевым моментом является удаление ненужных «локальных операций между блоками», получение структурно простых иерархических преобразователей зрения, в которых единицы-маски могут быть сериализованы, как преобразователи простого зрения. Для этой цели мы начнем с Swin Transformer и (i) установим размер маскирующего блока равным размеру токена на основном этапе Swin Transformer, (ii) отключим межблочное самовнимание перед основным этапом и (iii ) исключить все операции после основного этапа. Эмпирические исследования демонстрируют преимущества HiViT с точки зрения полностью контролируемого, самоконтролируемого и трансфертного обучения. В частности, при запуске MAE на ImageNet-1K HiViT-B сообщает о приросте точности на +0,6% по сравнению с ViT-B и ускорении в 1,9 раза по сравнению с Swin-B, а прирост производительности распространяется на последующие задачи обнаружения и сегментации. Код будет опубликован в открытом доступе