Обратите внимание, что этот пост предназначен для моего возможного исследования в будущем, чтобы оглянуться назад и просмотреть материалы по этой теме, не читая бумагу полностью.

В реферате авторы упомянули, что операторы свертки используют локальность для повышения эффективности и стоимости для дальних зависимостей. Также упоминается, что в результате недавних исследований было установлено, что возможно наложение слоев внутреннего внимания, чтобы получить сеть с полным вниманием, ограничиваясь локальным.

В этой статье авторы попытались устранить это ограничение (как?), преобразовав двухмерное внимание в одномерное. Следовательно, в результате снижается вычислительная сложность, что позволяет сети работать в большей области. Кроме того, в этом исследовании предлагается позиционно-зависимая архитектура внутреннего внимания, которая затем применяется к 4 большим наборам данных для классификации, паноптической сегментации, сегментации экземпляров и семантической сегментации.

Введение

Свертки считаются основными блоками в компьютерном зрении. Из-за двух особенностей: эквивалентности перевода (равной характеру изображения, поэтому популяризируйте модель в различных позициях) и локальности (уменьшает количество параметров и M-Adds). Однако это усложняет работу с длинными зависимостями.

Внимание предоставило возможность моделирования длинных зависимостей в различных работах, таких как моделирование языка, распознавание речи и нейронные субтитры. Кроме того, с большим потенциалом в компьютерном зрении (классификация изображений, обнаружение объектов, семантическая сегментация, классификация видео и защита от состязаний).

Хотя наложение уровней внимания показало многообещающие результаты, их наивная архитектура требует больших вычислительных ресурсов. В другом исследовании были применены локальные ограничения, что привело к снижению стоимости, несмотря на то, что это ограничивает модель.

В этом исследовании предлагается осевое внимание, которое позволяет эффективно выполнять вычисления и восстанавливает большое рецептивное поле в моделях внимания. Основная идея заключается в последовательной факторизации внимания из 2D в 1D по осям высоты и ширины. Кроме того, были добавлены позиционные термины, чтобы они зависели от контекста, что приводит к тому, что внимание становится чувствительным к положению (с небольшими затратами).

Метод

Позиционно-чувствительное самовнимание

Выход в позиции o = (i,j) может быть рассчитан путем объединения прогнозируемых входных данных следующим образом:

Механизм объединения значений позволяет нам фиксировать связанный, но нелокальный контекст во всей карте объектов (NB.Сверточные операторы просто фиксируют локальные отношения).

Есть два недостатка: 1. Самостоятельное внимание очень дорого обходится и ограничивается только высокими уровнями CNN (например, карты признаков с пониженной дискретизацией) или небольшими изображениями. 2. Глобальный пул не извлекает позиционную информацию (это жизненно важно для компьютерного зрения). Добавляя локальные ограничения и позиционные кодировки к само-вниманию, эти две проблемы снимаются.

Чувствительность к положению

Замечено, что предыдущее позиционное смещение сильно связано с пикселем запроса Xo, а не с ключевым пикселем (Xp). Но ключевой пиксель может иметь информацию о том, к какому месту присоединиться. Таким образом, помимо смещения, зависящего от запроса, добавляется позиционное смещение, зависящее от ключа.

Этот дизайн можно назвать чувствительным к положению самостоятельным вниманием, которое захватывает длительные зависимости с точной информацией о местоположении.

Axia-Внимание

Локальное ограничение значительно снижает вычислительные затраты и обеспечивает построение полностью автономной модели. Локальное собственное внимание, работающее в локальных квадратных областях, по-прежнему имеет сложность, квадратичную длине области, что вводит еще один гиперпараметр для компромисса между производительностью и вычислительной сложностью.

В этой статье осевое внимание в автономном само-внимании предлагается для обеспечения как глобальной связи, так и эффективных вычислений. Его слой описан ниже:

Axial-ResNet (остаточная нейронная сеть)

Свертка 3 x 3 в остаточном блоке узкого места заменяется двумя слоями осевого внимания с несколькими головками, чтобы преобразовать ResNet в Axial-ResNet. Чтобы перетасовать функции, сохраняются две свертки 1 x 1. Таким образом, блок осевого внимания можно увидеть на рисунке 2 (вверху).

Axial-DeepLab

Для задач сегментации реализованы дополнительные изменения для преобразования Axial-ResNet в Axial-DeepLab, как указано ниже:

  1. DeepLab изменил скорость шага и скорость последних одного или двух этапов в ResNet. Точно так же был удален шаг последнего этапа, но модуль «агрессивного» внимания не был реализован.
  2. Сложный модуль объединения пространственных пирамид (ASPP) не используется. Показано, что Axial-DeepLab корректно работает с/без ASPP.
  3. Тот же самый стержень из трех сверток, двойных декодеров и прогнозирующих головок был принят в следующей Panoptic-DeepLab.

После этого авторы представили свои результаты на различных наборах данных, которые здесь не упоминаются.

Заключение и обсуждение

Эту научную статью можно рассматривать как одну из предпринятых попыток полностью избавиться от сверток и вместо них использовать модели, основанные только на внимании. Однако модель с аксиальным вниманием сохраняет M-Adds, занимает больше времени, чем свертки, основной причиной можно считать дефицит специализированных ядер на различных ускорителях на данный момент.

Если обнаружены какие-либо ошибки, пожалуйста, напишите мне по адресу [email protected]. Тем временем следите за мной в моем Твиттере здесь и посетите мой LinkedIn здесь. В конце концов, если вы нашли это полезным и хотите продолжить статьи в будущем, пожалуйста, следуйте за мной в среде. Наконец, если у вас есть какие-либо идеи или советы, я открыт, и вам просто нужно написать мне в LinkedIn. 🙂