Обратите внимание, что этот пост предназначен для моего возможного исследования в будущем, чтобы оглянуться назад и просмотреть материалы по этой теме, не читая бумагу полностью.

И внимание, и сверточная архитектура потрясающие в различных приложениях, звучит интересно, когда дело доходит до их смешивания. AANet, которая представлена ​​в этой бумаге, (Сверточная сеть с расширенным вниманием) представляет собой смесь свертки и самостоятельного внимания для тренировки позвоночника. Эта сетевая архитектура разработана командой Google Brain в 2019 году, одним из самых надежных источников в области ИИ. В этой статье я собираюсь резюмировать вышеупомянутую научную работу простым способом. Надеюсь, тебе понравится.

В реферате авторы заявили, что из-за локальности вычисления свертки (как и RNN) возникли некоторые дефекты. С другой стороны, внимание не имеет этого ограничения; следовательно, хорошо работает с длинными зависимостями для последовательных данных. Это побудило команду разработать в этом исследовании новый двумерный механизм относительного само-внимания, чтобы расширить сверточный оператор и механизм само-внимания.

Таким образом, результаты подтверждают тот факт, что предложенная модель AANet обеспечивает улучшение классификации и обнаружения изображений.

Во Введении упоминались две особенности сверточных слоев:

  1. локально (по ограниченному рецептивному полю)
  2. переводческая эквивалентность (по весам)

Самовнимание не является чем-то новым (см., например, Богданау, 2014), но ему было уделено большое внимание в статье Внимание — это все, что вам нужно в 2017 году. Самовнимание наиболее надежно для приложений моделирования последовательностей (например, НЛП, временных , и т. д.). В отличие от оператора объединения или свертки веса, используемые в операции взвешенного среднего, генерируются динамически функцией в скрытых единицах. Следовательно, речь идет о самих сигналах, а не о других локальных элементах, когда речь идет о взаимодействии между входными сигналами. Это делает захват длинных зависимостей жизнеспособным.

Формулировка само-внимания в этом исследовании способна полностью заменить стандартные извилины; Кроме того, стало понятно, что комбинация работает намного лучше (поэтому идея сверток не осталась позади). Таким образом, связывая и соединяя сверточные карты признаков (которые обеспечивают локальность) с картами признаков самоконтроля (моделирование долгосрочных зависимостей). Его можно увидеть на рисунке ниже:

AANet систематически улучшается за счет незначительного добавления вычислительной нагрузки с лучшей производительностью в канальном внимании «сжатие-и-возбуждение» во всех экспериментах в этом исследовании. В частности, производительность можно увидеть, как показано ниже:

  • 1,3% точность Top-1 ImageNet выше базового уровня ResNet50
  • Увеличение обнаружения объектов COCO на 1,4 mAP по сравнению с базовым уровнем RetinaNet

Было интересно, что AANet (сочетание внимания и извилин) работала лучше, чем модель полного внутреннего внимания. Поэтому в таких случаях AANet более эффективен.

Расширенная свертка внимания

Был сделан вывод, что свертки страдают от того, что они ограничены своей локальностью и плохо понимают глобальные контексты. Внимание перекалибровывает карту сверточных функций для работы с длинными зависимостями.

В этой статье авторы упомянули, что они:

  1. использовать внимание, которое может принимать участие совместно в пространственном и функциональном подпространстве
  2. ввести дополнительные карты объектов

Объединение сверточных карт и карт признаков внимания:

Соответствующий AANet записывается как

где MHA(X) можно рассчитать следующим образом:

Также, когда дело доходит до двумерных позиционных Ebeddings: (без явной информации о позициях, собственное внимание эквивалентно перестановке)

когда дело доходит до относительных позиционных вложений:

Архитектуры моделей в этом исследовании можно описать следующим образом:

Интересным моментом в этом разделе является то, что для борьбы с последствиями затрат памяти AANet начал с последнего слоя с наименьшим пространственным измерением. Кроме того, они прибегают к меньшему размеру пакета и понижают выборку входных данных, чтобы уменьшить занимаемую память моделей.

В разделе «Эксперименты» говорится, что модель протестирована на популярных наборах данных для классификации изображений и обнаружения объектов и показала хорошие результаты. (эти реализации и результаты не упоминаются в этой статье)

Кроме того, вместо сверточных карт признаков использовались карты признаков собственного внимания, что будет более простым сравнением.

Последний раздел связан с «обсуждением и будущей работой», что, как мне кажется, важно для того, чтобы идти в ногу с последними достижениями в области машинного обучения.

Авторы сказали, что есть некоторые пробелы, на которых интересно сосредоточиться:

  1. Сосредоточьтесь на полном обмене механизма внимания эффективностью VS мощностью
  2. Использование AANets в качестве основного в поиске различных архитектур для поиска лучших моделей.
  3. Выяснение, в какой степени эта замена (свертки на внимание) останется

Если обнаружены какие-либо ошибки, напишите мне по адресу [email protected]. А пока следите за мной в моем Твиттере здесь и посетите мой LinkedIn здесь. В конце концов, если вы сочли это полезным и хотите продолжать статьи в будущем, подписывайтесь на меня всреде. Наконец, если у вас есть какие-либо идеи или советы, я открыт, и вам просто нужно написать мне в LinkedIn. 🙂