Обратите внимание, что этот пост для моего возможного исследования в будущем, чтобы оглянуться назад и просмотреть материалы по этой теме, не читая бумагу полностью.

Большинство методов сегментации используют полностью сверточные сети (FCN). Кодер уменьшает пространственное разрешение и изучает более абстрактные/семантические визуальные понятия с большими рецептивными полями. Поскольку моделирование контекста жизненно важно для сегментации, расширение рецептивного поля стало ядром внимания. Тем не менее, архитектура осталась прежней (FCN на основе кодера-декодера).

Авторы попытались внести в эту статью замену, рассматривая семантическую сегментацию как последовательное предсказание. Чистый преобразователь (без свертки или уменьшения разрешения) разработан для кодирования изображения в виде последовательности патчей. Из-за глобального контекста, смоделированного на всех уровнях, этот кодировщик можно смешивать с простым декодером, чтобы обеспечить трансформатор SEgmentation TRansformer (SETR). В итоге эта модель была запущена на нескольких популярных наборах данных (ADE20K, Pascal Context и Cityscapes).

Введение

Стандартная модель сегментации FCN имеет архитектуру кодер-декодер:

  • кодер: для обучения представлению признаков
  • декодер: для классификации представлений объектов, полученных кодировщиком, на уровне пикселей.

Кодер играет наиболее важную роль между этими двумя (кодировщик/декодер). Кодер (например, CNN) предназначен для понимания изображения. Из-за вычислительных затрат мы уменьшаем разрешение карт объектов; таким образом, кодировщик может выучить больше абстрактных/семантических визуальных понятий при постоянном сокращении рецептивного поля. Это имеет два преимущества: 1. эквивалентность перевода и локальность.

Некоторые проблемы ограничивают производительность модели для прогнозирования длительных зависимостей, что очень важно. Есть некоторые усилия по борьбе с этой проблемой, такие как изменение работы сверток (расширенные размеры ядра, сложные свертки и пирамиды изображений/функций) или интеграция модулей внимания в архитектуру FCN. Архитектура стандартной модели кодера-декодера FCN не будет изменена путем принятия каждого/оба из ранее упомянутых подходов. Поэтому исследователи решили устранить базу сверток, чтобы решить эту проблему, и разработали модели, основанные только на внимании (вы можете увидеть две из моих предыдущих статей под названием Axial-DeepLab: Stand-Alone Axial-Attention для паноптической сегментации, Внимание «Дополненная сверточная сеть и Нелокальная нейронная сеть. Тем не менее, характер моделей FCN не изменился.

Три вклада в эту статью можно резюмировать следующим образом:

  1. Реформирование проблемы семантической сегментации изображения
  2. использовать структуру трансформатора
  3. введение трех различных конструкций декодера

Методы

1. Семантическая сегментация на основе FCN

Кодер FCN включает в себя стек сверточных слоев. Входной слой захватывает входное изображение. Кроме того, расположение тензора в следующих слоях вычисляется на основе расположения тензора предыдущих слоев, которые связаны (определяются как рецептивные поля).
Некоторые другие исследователи показали, что комбинация FCN и внимания может работать хорошо. Следовательно, эти модели ограничивают обучение внимания более высоким уровням с меньшими размерами входных данных из-за его квадратичной сложности по отношению к количеству пикселей тензоров признаков. В этом исследовании SETR (SEgmentation TRansformers) как кодировщик, основанный исключительно на внутреннем внимании, был разработан для преодоления этого ограничения.

Преобразователи сегментации (SETR)

Структура ввода-вывода такая же, как в НЛП между одномерными последовательностями (следовательно, существует несоответствие между двумерными изображениями и одномерными последовательностями). Следовательно, мы должны сделать изображение последовательностью для SETR. Этого можно добиться, сведя значения пикселей изображения в одномерный вектор. SETR можно проиллюстрировать следующим образом:

Задавая одномерную последовательность встраивания E (вход), используется чистый преобразователь. другими словами, каждый уровень имеет глобальное принимающее поле (решающее ограничение кодера FCN).

Дизайн декодера

Основной целью следующих декодеров является получение результатов сегментации в исходном пространстве 2D-изображения (HxW).

  • Наивный апсемплинг (Наивный)
  • Прогрессивная повышающая дискретизация (PUP)
  • Многоуровневая агрегация функций (MLA)

Основная особенность заключается в том, что принята простая двухуровневая сеть, а ее архитектура представляет собой 1 x 1 конв + норму пакетной синхронизации (с ReLU) + 1 x 1 конв. Авторы назвали этот декодер «SETR-Naive».

Этот декодер заменяет слои свертки и операции повышения дискретизации. Авторы назвали этот декодер «SETR-PUP», и его можно увидеть следующим образом:

Этот декодер характеризуется многоуровневой агрегацией признаков. Это совершенно другое из-за представления признаков каждого слоя модели с одинаковым разрешением без формы пирамиды, и его можно проиллюстрировать, как показано ниже:

Обратите внимание, что в этой статье не упоминается раздел "Эксперименты". В этом разделе представлены несколько попыток применения предлагаемой модели к различным наборам данных.

Заключение:

В заключение авторы заявили, что они изменили архитектурный уровень, чтобы полностью исключить зависимость от FCN и решить проблему ограниченного рецептивного поля. Затем применил предложенную современную модель к нескольким наборам данных (ADE20, Pascal Context и Cityscapes) и получил восхитительные результаты (особенно на ADE20K).

Если обнаружены какие-либо ошибки, пожалуйста, напишите мне по адресу [email protected]. Тем временем следите за мной в моем Твиттере здесь и посетите мой LinkedIn здесь. В конце концов, если вы нашли это полезным и хотите продолжить статьи в будущем, пожалуйста, следуйте за мной в среде. Наконец, если у вас есть какие-либо идеи или советы, я открыт, и вам просто нужно написать мне в LinkedIn. 🙂

Ссылка:

  1. Чжэн С. и др. Переосмысление семантической сегментации с точки зрения от последовательности к последовательности с преобразователями. в Материалы конференции IEEE/CVF по компьютерному зрению и распознаванию образов. 2021.