[Модели Vision-Language — ViT] Краткий обзор статьи: изображение стоит 16x16 слов: трансформеры для распознавания изображений в масштабе

Документ: изображение стоит 16x16 слов: преобразователи для распознавания изображений в масштабе, https://arxiv.org/pdf/2010.11929v2.pdf

===============================================================

Предыстория и введение

По сравнению с доминированием моделей трансформаторов в НЛП, его применение в CV началось поздно, пока не появилась модель ViT.

Несмотря на то, что в то время механизм внимания уже в некоторой степени применялся в CV, его применение в основном связано с CNN, который остается основным методом для извлечения признаков зрения.

В документе показано, что эта зависимость от CNN не является необходимой. Но вместо этого, подобно тому, как модели преобразователя работают с последовательностью языковых токенов в НЛП, преобразование изображения в последовательность фрагментов изображения и непосредственное применение чистого преобразователя поверх него также может привести к конкурентоспособным результатам.

Архитектура модели

Модель легко понять по аналогии с применением трансформаторов в НЛП. Все архитектуры преобразователя поддерживаются одинаковыми за счет объединения блоков кодировщика L, при этом каждый блок состоит из уровня Multi-Head Attention и уровня MLP. Также применяются нормализация партии и остаточное добавление.

Единственная разница заключается в том, как обрабатывать изображение, чтобы оно могло обрабатываться архитектурой преобразователя, как это делается для обработки текста. Чтобы это работало, входное изображение разбивается на последовательность N меньших участков одинакового размера. Чтобы свести каждую партию к одному и тому же размеру (думая о том, что каждый токен закодирован в вектор размерности 768 в НЛП), каждый патч преобразуется матрицей линейной проекции E (уравнение 1) в вектор встраивания D-размера. Перед добавлением специального и обучаемого токена [класс] впереди (x_class в уравнении 1) и добавлением встраивания позиции эти векторы встраивания готовы для подачи в кодировщики.

Сравните с CNN. ViT имеет меньшую предвзятость индукции, связанную с изображением, чем CNN. Предубеждения CNN зависят от архитектуры. Локальность и переводческая эквивалентность наследуются в каждом слое. Что это значит? В простом объяснении CNN использует двумерное скользящее окно для выполнения свертки. Эта структура соседства имеет неявную эвристику, согласно которой близость подразумевает сходство. По сравнению с ViT, только слои MLP являются локальными и соседними структурами, а слои внутреннего внимания являются глобальными.

Эксперименты

«ViT показывает очень хорошие результаты, достигая уровня техники по большинству критериев распознавания при более низких затратах на предварительную подготовку»

  • Варианты модели

  • Сравнение с базовыми показателями на основе ResNet

Чтобы максимально походить на исходную модель Transformer, специальный токен [class] был добавлен перед входными патчами, которые нужно было изучить и использовать в качестве представления изображения для последующих задач. В документе также сравнивается производительность с использованием этого специального токена и без него. Без добавления этого специального токена модель может в качестве альтернативы использовать только вложения патчей изображений из последнего блока кодировщика и применять к ним глобальное среднее пулирование (GAP). В документе утверждается, что эти два способа могут обеспечить одинаковую производительность с настройкой на использование разных скоростей обучения.

===============================================================