В то время как трансформаторы зрения (ВиТ) достигли впечатляющих результатов в области компьютерного зрения и усовершенствовали современное оборудование для решения различных задач, связанных с зрением, узким местом, препятствующим дальнейшему развитию ВиТ в этой области, является их квадратичная сложность.

В обзоре NeurIPS 2021 SOFT: Softmax-free Transformer with Linear Complexity исследователи из Университета Фудань, Университета Суррея и Huawei Noah's Ark Lab определяют ограничения квадратичной сложности для ViT, которые коренятся в сохранении softmax. самовнимание во время приближений. Чтобы облегчить эту вычислительную нагрузку, команда предлагает первый преобразователь softmax-free (SOFT), который сокращает вычисление самовнимания до линейной сложности, обеспечивая превосходный компромисс между точностью и сложностью.

Команда резюмирует основные результаты своего исследования следующим образом:

  1. Мы представляем новый преобразователь softmax-free с линейной пространственной и временной сложностью.
  2. Наша аппроксимация матрицы внимания достигается с помощью нового алгоритма разложения матрицы с теоретической гарантией.
  3. Чтобы оценить наш метод решения задач визуального распознавания, мы проектируем семейство базовых архитектур с различными возможностями, используя SOFT в качестве основного компонента самовнимания. Обширные эксперименты показывают, что с линейной сложностью наши модели SOFT могут принимать в качестве входных данных гораздо более длинные последовательности токенов изображений. В результате с тем же размером модели наша СОФТ превосходит современные CNN и варианты ViT по классификации ImageNet в соотношении точности / сложности.

В традиционных ViT, учитывая последовательность токенов, каждый токен представлен d-мерным вектором признаков, механизм самовнимания направлен на обнаружение корреляций всех пар токенов, тем самым создавая проблематичную квадратичную сложность. Предлагаемый СОФТ вместо этого использует функцию самовнимания без softmax с скалярным произведением, замененным гауссовым ядром. Чтобы решить проблемы сходимости и квадратичной сложности, исследователи используют регуляризацию низкого ранга, которая позволяет значительно снизить сложность модели SOFT, не вычисляя полную матрицу самовнимания.

Команда оценила предлагаемый СОФТ на наборе данных ILSVRC-2012 ImageNet-1K, сообщив о максимальной точности производительности модели, а также о размере модели и операциях с плавающей запятой для оценки экономической эффективности.

Компания SOFT достигла лучших результатов в экспериментах, улучшив последние методы, основанные на преобразователях чистого зрения ViT и DeiT, а также современную CNN RegNet; и превзошел все варианты своего наиболее сходного по архитектуре аналога Pyramid Vision Transformer (PVT).

В целом исследование показывает, что новый дизайн SOFT устраняет необходимость в нормализации softmax и обеспечивает превосходный компромисс между точностью и сложностью.

Статья SOFT: Softmax-free Transformer с линейной сложностью находится на arXiv.

Автор: Геката Хе | Редактор: Майкл Саразен

Мы знаем, что вы не хотите пропустить какие-либо новости или научные открытия. Подпишитесь на нашу популярную рассылку Synced Global AI Weekly, чтобы получать еженедельные обновления AI.