Обратите внимание, что этот пост предназначен для моего возможного исследования в будущем, чтобы оглянуться назад и просмотреть материалы по этой теме, не читая бумагу полностью.
И внимание, и сверточная архитектура потрясающие в различных приложениях, звучит интересно, когда дело доходит до их смешивания. AANet, которая представлена в этой бумаге, (Сверточная сеть с расширенным вниманием) представляет собой смесь свертки и самостоятельного внимания для тренировки позвоночника. Эта сетевая архитектура разработана командой Google Brain в 2019 году, одним из самых надежных источников в области ИИ. В этой статье я собираюсь резюмировать вышеупомянутую научную работу простым способом. Надеюсь, тебе понравится.
В реферате авторы заявили, что из-за локальности вычисления свертки (как и RNN) возникли некоторые дефекты. С другой стороны, внимание не имеет этого ограничения; следовательно, хорошо работает с длинными зависимостями для последовательных данных. Это побудило команду разработать в этом исследовании новый двумерный механизм относительного само-внимания, чтобы расширить сверточный оператор и механизм само-внимания.
Таким образом, результаты подтверждают тот факт, что предложенная модель AANet обеспечивает улучшение классификации и обнаружения изображений.
Во Введении упоминались две особенности сверточных слоев:
- локально (по ограниченному рецептивному полю)
- переводческая эквивалентность (по весам)
Самовнимание не является чем-то новым (см., например, Богданау, 2014), но ему было уделено большое внимание в статье Внимание — это все, что вам нужно в 2017 году. Самовнимание наиболее надежно для приложений моделирования последовательностей (например, НЛП, временных , и т. д.). В отличие от оператора объединения или свертки веса, используемые в операции взвешенного среднего, генерируются динамически функцией в скрытых единицах. Следовательно, речь идет о самих сигналах, а не о других локальных элементах, когда речь идет о взаимодействии между входными сигналами. Это делает захват длинных зависимостей жизнеспособным.
Формулировка само-внимания в этом исследовании способна полностью заменить стандартные извилины; Кроме того, стало понятно, что комбинация работает намного лучше (поэтому идея сверток не осталась позади). Таким образом, связывая и соединяя сверточные карты признаков (которые обеспечивают локальность) с картами признаков самоконтроля (моделирование долгосрочных зависимостей). Его можно увидеть на рисунке ниже:
AANet систематически улучшается за счет незначительного добавления вычислительной нагрузки с лучшей производительностью в канальном внимании «сжатие-и-возбуждение» во всех экспериментах в этом исследовании. В частности, производительность можно увидеть, как показано ниже:
- 1,3% точность Top-1 ImageNet выше базового уровня ResNet50
- Увеличение обнаружения объектов COCO на 1,4 mAP по сравнению с базовым уровнем RetinaNet
Было интересно, что AANet (сочетание внимания и извилин) работала лучше, чем модель полного внутреннего внимания. Поэтому в таких случаях AANet более эффективен.
Расширенная свертка внимания
Был сделан вывод, что свертки страдают от того, что они ограничены своей локальностью и плохо понимают глобальные контексты. Внимание перекалибровывает карту сверточных функций для работы с длинными зависимостями.
В этой статье авторы упомянули, что они:
- использовать внимание, которое может принимать участие совместно в пространственном и функциональном подпространстве
- ввести дополнительные карты объектов
Объединение сверточных карт и карт признаков внимания:
Соответствующий AANet записывается как
где MHA(X) можно рассчитать следующим образом:
Также, когда дело доходит до двумерных позиционных Ebeddings: (без явной информации о позициях, собственное внимание эквивалентно перестановке)
когда дело доходит до относительных позиционных вложений:
Архитектуры моделей в этом исследовании можно описать следующим образом:
Интересным моментом в этом разделе является то, что для борьбы с последствиями затрат памяти AANet начал с последнего слоя с наименьшим пространственным измерением. Кроме того, они прибегают к меньшему размеру пакета и понижают выборку входных данных, чтобы уменьшить занимаемую память моделей.
В разделе «Эксперименты» говорится, что модель протестирована на популярных наборах данных для классификации изображений и обнаружения объектов и показала хорошие результаты. (эти реализации и результаты не упоминаются в этой статье)
Кроме того, вместо сверточных карт признаков использовались карты признаков собственного внимания, что будет более простым сравнением.
Последний раздел связан с «обсуждением и будущей работой», что, как мне кажется, важно для того, чтобы идти в ногу с последними достижениями в области машинного обучения.
Авторы сказали, что есть некоторые пробелы, на которых интересно сосредоточиться:
- Сосредоточьтесь на полном обмене механизма внимания эффективностью VS мощностью
- Использование AANets в качестве основного в поиске различных архитектур для поиска лучших моделей.
- Выяснение, в какой степени эта замена (свертки на внимание) останется
Если обнаружены какие-либо ошибки, напишите мне по адресу [email protected]. А пока следите за мной в моем Твиттере здесь и посетите мой LinkedIn здесь. В конце концов, если вы сочли это полезным и хотите продолжать статьи в будущем, подписывайтесь на меня всреде. Наконец, если у вас есть какие-либо идеи или советы, я открыт, и вам просто нужно написать мне в LinkedIn. 🙂