Обратите внимание, что этот пост для моего возможного исследования в будущем, чтобы оглянуться назад и просмотреть материалы по этой теме, не читая бумагу полностью.
Большинство методов сегментации используют полностью сверточные сети (FCN). Кодер уменьшает пространственное разрешение и изучает более абстрактные/семантические визуальные понятия с большими рецептивными полями. Поскольку моделирование контекста жизненно важно для сегментации, расширение рецептивного поля стало ядром внимания. Тем не менее, архитектура осталась прежней (FCN на основе кодера-декодера).
Авторы попытались внести в эту статью замену, рассматривая семантическую сегментацию как последовательное предсказание. Чистый преобразователь (без свертки или уменьшения разрешения) разработан для кодирования изображения в виде последовательности патчей. Из-за глобального контекста, смоделированного на всех уровнях, этот кодировщик можно смешивать с простым декодером, чтобы обеспечить трансформатор SEgmentation TRansformer (SETR). В итоге эта модель была запущена на нескольких популярных наборах данных (ADE20K, Pascal Context и Cityscapes).
Введение
Стандартная модель сегментации FCN имеет архитектуру кодер-декодер:
- кодер: для обучения представлению признаков
- декодер: для классификации представлений объектов, полученных кодировщиком, на уровне пикселей.
Кодер играет наиболее важную роль между этими двумя (кодировщик/декодер). Кодер (например, CNN) предназначен для понимания изображения. Из-за вычислительных затрат мы уменьшаем разрешение карт объектов; таким образом, кодировщик может выучить больше абстрактных/семантических визуальных понятий при постоянном сокращении рецептивного поля. Это имеет два преимущества: 1. эквивалентность перевода и локальность.
Некоторые проблемы ограничивают производительность модели для прогнозирования длительных зависимостей, что очень важно. Есть некоторые усилия по борьбе с этой проблемой, такие как изменение работы сверток (расширенные размеры ядра, сложные свертки и пирамиды изображений/функций) или интеграция модулей внимания в архитектуру FCN. Архитектура стандартной модели кодера-декодера FCN не будет изменена путем принятия каждого/оба из ранее упомянутых подходов. Поэтому исследователи решили устранить базу сверток, чтобы решить эту проблему, и разработали модели, основанные только на внимании (вы можете увидеть две из моих предыдущих статей под названием Axial-DeepLab: Stand-Alone Axial-Attention для паноптической сегментации, Внимание «Дополненная сверточная сеть и Нелокальная нейронная сеть. Тем не менее, характер моделей FCN не изменился.
Три вклада в эту статью можно резюмировать следующим образом:
- Реформирование проблемы семантической сегментации изображения
- использовать структуру трансформатора
- введение трех различных конструкций декодера
Методы
1. Семантическая сегментация на основе FCN
Кодер FCN включает в себя стек сверточных слоев. Входной слой захватывает входное изображение. Кроме того, расположение тензора в следующих слоях вычисляется на основе расположения тензора предыдущих слоев, которые связаны (определяются как рецептивные поля).
Некоторые другие исследователи показали, что комбинация FCN и внимания может работать хорошо. Следовательно, эти модели ограничивают обучение внимания более высоким уровням с меньшими размерами входных данных из-за его квадратичной сложности по отношению к количеству пикселей тензоров признаков. В этом исследовании SETR (SEgmentation TRansformers) как кодировщик, основанный исключительно на внутреннем внимании, был разработан для преодоления этого ограничения.
Преобразователи сегментации (SETR)
Структура ввода-вывода такая же, как в НЛП между одномерными последовательностями (следовательно, существует несоответствие между двумерными изображениями и одномерными последовательностями). Следовательно, мы должны сделать изображение последовательностью для SETR. Этого можно добиться, сведя значения пикселей изображения в одномерный вектор. SETR можно проиллюстрировать следующим образом:
Задавая одномерную последовательность встраивания E (вход), используется чистый преобразователь. другими словами, каждый уровень имеет глобальное принимающее поле (решающее ограничение кодера FCN).
Дизайн декодера
Основной целью следующих декодеров является получение результатов сегментации в исходном пространстве 2D-изображения (HxW).
- Наивный апсемплинг (Наивный)
- Прогрессивная повышающая дискретизация (PUP)
- Многоуровневая агрегация функций (MLA)
Основная особенность заключается в том, что принята простая двухуровневая сеть, а ее архитектура представляет собой 1 x 1 конв + норму пакетной синхронизации (с ReLU) + 1 x 1 конв. Авторы назвали этот декодер «SETR-Naive».
Этот декодер заменяет слои свертки и операции повышения дискретизации. Авторы назвали этот декодер «SETR-PUP», и его можно увидеть следующим образом:
Этот декодер характеризуется многоуровневой агрегацией признаков. Это совершенно другое из-за представления признаков каждого слоя модели с одинаковым разрешением без формы пирамиды, и его можно проиллюстрировать, как показано ниже:
Обратите внимание, что в этой статье не упоминается раздел "Эксперименты". В этом разделе представлены несколько попыток применения предлагаемой модели к различным наборам данных.
Заключение:
В заключение авторы заявили, что они изменили архитектурный уровень, чтобы полностью исключить зависимость от FCN и решить проблему ограниченного рецептивного поля. Затем применил предложенную современную модель к нескольким наборам данных (ADE20, Pascal Context и Cityscapes) и получил восхитительные результаты (особенно на ADE20K).
Если обнаружены какие-либо ошибки, пожалуйста, напишите мне по адресу [email protected]. Тем временем следите за мной в моем Твиттере здесь и посетите мой LinkedIn здесь. В конце концов, если вы нашли это полезным и хотите продолжить статьи в будущем, пожалуйста, следуйте за мной в среде. Наконец, если у вас есть какие-либо идеи или советы, я открыт, и вам просто нужно написать мне в LinkedIn. 🙂
Ссылка:
- Чжэн С. и др. Переосмысление семантической сегментации с точки зрения от последовательности к последовательности с преобразователями. в Материалы конференции IEEE/CVF по компьютерному зрению и распознаванию образов. 2021.