Архитектуры внимания расширяют границы во многих задачах машинного обучения (ML) и стали строительным блоком во многих современных нейронных сетях. Тем не менее, наше концептуальное и теоретическое понимание их силы и присущих им ограничений еще только зарождается. Исследователи из Microsoft и Université de Montréal задались целью зафиксировать основные математические свойства внимания, предложив новую математическую основу, которая использует теорию меры и интегральные операторы для моделирования внимания и количественной оценки регулярности операций внимания.

Теория меры - это продвинутый математический подход к измерению как в классических евклидовых пространствах, так и для абстрактных аспектов. Теория меры опирается на аксиомы Колмогорова, которые легли в основу теории вероятностей с момента их введения в 1933 году. Недавнее быстрое развитие механизмов внимания для глубокого обучения вдохновило исследователей Microsoft и Университета Монреаля на применение теории меры для исследования математических свойств внимание в своем исследовании О регулярности внимания.

Исследователи вводят математическую основу, которая использует теорию меры и интегральные операторы для моделирования внимания и определения его основных свойств. Они демонстрируют липшицевость операции внимания на компактных областях и дают оценку константы Липшица. Затем результаты распространяются на некомпактные области.

Хотя обучение и обобщение моделей машинного обучения жизненно важны для их практического использования, ключевым условием для улучшения дизайна моделей является лучшее понимание их обучения и стабильности. Регулярность является одним из основных математических свойств операций внимания и включает в себя измерение того, насколько «близки» выходы операции внимания - рассчитанные с точки зрения близости входов и параметров блока внимания - в основном для измерения степени непрерывности или гладкость функций.

Чтобы количественно оценить регулярность операции внимания, исследователи сначала сформулировали внимание в терминах теории меры и интегральных операторов, а затем использовали эту структуру для изучения регулярности в терминах липшицевой непрерывности, которая определяет сильную непрерывность функций. Если изменение входа на определенную величину не приводит к изменению его выхода более чем в K раз больше, тогда функция называется липшицевой, и константа K, таким образом, становится жестким ограничением того, насколько быстро может изменяться выход функции.

Чтобы оценить влияние этих результатов регулярности, исследователи изучили такие сценарии, как перекрестное внимание; устойчивость и нарушения на уровне токенов в обработке естественного языка; и сложные расширения архитектуры трансформатора. Результаты показали, что:

  • В рамках структуры результирующее представление является липшицевым по отношению к выходному семантическому пространству.
  • Моделирование потенциально может быть использовано для получения прогнозов расстояния между контекстными встраиваниями сети самовнимания в зависимости от контекста для проверки этой гипотезы.
  • Моделирование также потенциально может быть использовано для разработки более качественных компонентов модели, которые уменьшают это «несоответствие регулярности» для конкретных возмущений, которые очень нерегулярны.
  • Результаты обеспечивают достаточные условия для того, чтобы трансформаторы с глубоким вниманием к себе были обратимыми.
  • Для моделей бесконечно глубокого внимания результаты проливают свет на важность ввода данных, которая дает фиксированную точку, зависящую от данных.

Статья О регулярности внимания находится на arXiv.

Автор: Геката Хе | Редактор: Майкл Саразен

Мы знаем, что вы не хотите пропустить какие-либо новости или научные открытия. Подпишитесь на нашу популярную рассылку Synced Global AI Weekly, чтобы получать еженедельные обновления AI.