Архитектура нейронных сетей, подобная трансформатору, сыграла решающую роль в обработке естественного языка (NLP) и теперь все чаще применяется в области компьютерного зрения (CV) и связанных с ней исследований. В документе, представленном на ICLR 2021, предлагается LambdaNetworks, новый специфичный для трансформатора метод, разработанный для решения проблемы дорогостоящих карт внимания при моделировании дальнодействующих взаимодействий.

В машинном обучении механизмы внимания - это стандартный метод фиксации долгосрочных взаимодействий с данными. Однако обращать внимание на входные данные с длинной последовательностью сложно из-за огромного квадратичного объема памяти. Например, 32 ГБ памяти требуется для применения одного слоя внимания с несколькими головами к пакету из 256 входных изображений размером 64x64 с 8 головами, что на практике является чрезмерным.

В документе LambdaNetworks: моделирование дальнодействующих взаимодействий без внимания предлагается новая концепция под названием «лямбда-слои», класс слоев, который обеспечивает общую основу для регистрации дальнодействующих взаимодействий. между входом и структурированным набором элементов контекста. В документе также представлена ​​«LambdaResNets», семейная архитектура, основанная на уровнях, которая достигает точности SOTA в ImageNet и примерно в 4,5 раза быстрее, чем популярный современный ускоритель машинного обучения EfficientNets.

В архитектуре, подобной преобразователю, лямбда-слои преобразуют доступные контексты в отдельные линейные функции (лямбда-выражения), которые затем применяются к каждому входу отдельно.

В то время как типичные механизмы внимания определяют ядро ​​подобия между элементами ввода и контекста, лямбда-слои вместо этого суммируют контекстную информацию в линейную функцию фиксированного размера, тем самым избегая чрезмерных требований к памяти. Это предполагает применимость лямбда-слоев для работы с длинными последовательностями или изображениями с высоким разрешением.

В ходе экспериментов исследовательская группа проверила лямбда-слои и механизмы внимания по классификации ImageNet с архитектурой ResNet50, при этом лямбда-слои продемонстрировали сильное преимущество при небольшой стоимости параметра.

Слои лямбда также обеспечивают лучшие результаты как по точности, так и по эффективности памяти, чем альтернативы самовниманию.

Тем временем было показано, что предлагаемое семейство архитектур LambdaResNets значительно улучшает компромисс между скоростью и точностью моделей классификации изображений. LambdaResNets показала лучшие результаты как по глубине, так и по масштабу изображения, чем популярные EfficientNets, и достигла высочайшего уровня точности ImageNet.

Статья LambdaNetworks: Моделирование дальнодействующих взаимодействий без внимания в настоящее время проходит двойную слепую проверку ICLR 2021 и доступна в OpenReview. Код PyTorch можно найти на проекте GitHub.

Аналитик: Виктор Лу | Редактор: Майкл Саразен; Фанюй Кай

Синхронизированный отчет | Обзор решений искусственного интеллекта в Китае в ответ на пандемию COVID-19 - 87 тематических исследований от 700+ поставщиков ИИ

В этом отчете предлагается взглянуть на то, как Китай использовал технологии искусственного интеллекта в борьбе с COVID-19. Он также доступен на Amazon Kindle. Наряду с этим отчетом мы также представили базу данных, охватывающую 1428 дополнительных решений искусственного интеллекта из 12 сценариев пандемии.

Нажмите здесь, чтобы найти больше отчетов от нас.

Мы знаем, что вы не хотите пропустить какие-либо новости или научные открытия. Подпишитесь на нашу популярную рассылку Synced Global AI Weekly, чтобы получать еженедельные обновления AI.