Архитектуры преобразователей изображений (ViT) достигли непревзойденной производительности при решении многих задач компьютерного зрения, часто превосходя классические сверточные архитектуры. Возникает вопрос: является ли впечатляющая производительность ViT результатом их мощной трансформаторной архитектуры и механизмов внимания, или есть какой-то другой фактор, который дает ViT преимущество?

В статье Патчи - это все, что вам нужно, которая в настоящее время проходит двойную слепую проверку для Международной конференции по обучающим представлениям (ICLR 2022), исследовательская группа предлагает ConvMixer, чрезвычайно простую модель (около 6 строк плотного кода PyTorch), разработанный для поддержки гипотезы о том, что производительность ViT в основном связана с использованием патчей в качестве входного представления. Исследование показывает, что ConvMixer может превзойти ViT, MLP-микшеры и классические модели машинного зрения.

Андрей Карпати, старший директор Tesla по искусственному интеллекту, написал в Твиттере: «Я потрясен новой архитектурой ConvMixer».

Errr ok wow, меня потрясла новая архитектура ConvMixer https://t.co/crUMktQ0ig первая модель, которая достигает неуловимой двойной цели 80% + точность ImageNet Top-1, а также вписывается в tweet 😐 pic.twitter.com/898EvpJVUl

- Андрей Карпатий (@karpathy) 7 октября 2021 года

ConvMixer включает в себя слой встраивания исправлений, за которым следуют повторные применения простого полностью сверточного блока. Сам блок ConvMixer состоит из глубинной свертки, за которой следует точечная свертка, при этом за каждой сверткой следует процесс активации и пост-активации BatchNorm.

Как следует из названия, основная идея ConvMixer заключается в смешивании. Исследователи используют глубинную свертку для смешивания пространственных положений и точечную свертку для смешивания местоположений каналов. Они также используют свертки с необычно большим размером ядра, чтобы смешивать удаленные пространственные местоположения, что позволяет им наблюдать эффекты самого представления патча в отличие от традиционной пирамидальной конструкции сверточных сетей.

В своем эмпирическом исследовании команда оценила ConvMixer по классификации ImageNet-1k без какой-либо предварительной подготовки или дополнительных данных. Они добавили ConvMixer во фреймворк Timm и использовали RandAugment, mixup, CutMix, случайное стирание и отсечение градиентной нормы в дополнение к увеличению времени по умолчанию.

В экспериментах ConvMixer-1536/20 с параметрами 52M достиг точности 81,4% на ImageNet, а ConvMixer-768/32 с параметрами 21M - 80,2%. Более того, несмотря на свою чрезвычайную простоту, ConvMixer превзошел обе «стандартные» модели компьютерного зрения, такие как ResNet, и соответствующие варианты трансформера машинного зрения и MLP-Mixer.

В целом, результаты показывают, что представление патча само по себе может быть компонентом, наиболее ответственным за выдающуюся производительность ViT. Команда считает, что их работа может обеспечить прочную основу для сравнения будущих передовых архитектур на основе «сверточных, но патч-основанных».

Код ConvMixer доступен на Github проекта. Бумага Патчи - все, что вам нужно? находится на OpenReview.

Автор: Геката Хе | Редактор: Майкл Саразен

Мы знаем, что вы не хотите пропустить какие-либо новости или научные открытия. Подпишитесь на нашу популярную рассылку Synced Global AI Weekly, чтобы получать еженедельные обновления AI.