NormFormer от Facebook AI использует дополнительную нормализацию для значительного улучшения Transformer ...

В документе, который в настоящее время рассматривается для ICLR 2022, команда Facebook AI Research представляет NormFormer, модификацию архитектуры преобразователя Pre-LN, предназначенную для улучшения сложности предварительного обучения и производительности последующих задач как для причинных, так и для замаскированных языковых моделей с незначительными дополнительными затратами на вычисления.

С момента своего появления в 2017 году трансформаторы стали ведущей архитектурой глубокого обучения. Исходный преобразователь использует нормализацию уровня, чтобы уменьшить дисперсию входных данных для подслоя во время предварительного обучения. Однако эта установка преобразователя Pre-LayerNorm страдает несоответствием величины градиента, поскольку градиенты, полученные на ранних уровнях, намного больше, чем на более поздних уровнях.

Предлагаемый NormFormer решает эту проблему, применяя три модификации к преобразователю Pre-LN: Норма уровня после самовнимания, масштабирование выходов самовнимания по голове и норма уровня после первого полностью подключенного уровня. / strong> Эти модификации добавляют небольшое количество обучаемых параметров, которые обеспечивают рентабельный способ для каждого уровня изменять величину его функций, значительно улучшая сложность предварительного обучения и производительность последующих задач, добавляя при этом незначительные затраты на вычисления. Исследование показывает, что NormFormer может повысить производительность без выстрела GPT3-Large (1,3B), а также точно настроить производительность при выполнении задач GLUE (General Language Understanding Evaluation).

В своем первом эксперименте исследователи Facebook предварительно обучили модели причинного языка (CLM) с пятью различными параметрами: Small (125M параметров), Medium (355M), Large (1,3B) и XL (2,7B). Они также обучили три крупномасштабные модели с параметрами 2.7B: GPT-3–2.7B с активациями GELU и два варианта GPT3–2.7B с активациями Relu2.

Во втором эксперименте была принята RoBERTa-base, архитектура Pre-LN и были доработаны как базовые модели маскированного языка (MLM), так и NormFormer, сообщая о лучшей производительности при проверке, установленной для задач в тесте GLUE.

В экспериментах с моделями CLM NormFormer превзошел GPT-3 всех размеров по точности нулевого выстрела, достигнув производительности GPT3-Large (1,3B) при нулевом выстреле на 60 процентов быстрее. Тем временем модели MLM NormFormer улучшили свои аналоги Pre-LN по каждой задаче, улучшив производительность точно настроенного GLUE на 1,9 процента.

Исследователи пришли к выводу, что добавление небольшого количества обучаемых параметров в нужные места в архитектуре может облегчить определенные проблемы и повысить производительность в современных сетях; и предположить, что в будущих исследованиях можно будет выяснить, существуют ли другие аналогично эффективные модификации, которые также могут обеспечить такие улучшения.

Код для обучения моделей NormFormer доступен на GitHub проекта. Статья NormFormer: Улучшенное предварительное обучение трансформатора с дополнительной нормализацией находится на arXiv.

Автор: Геката Хе | Редактор: Майкл Саразен

Мы знаем, что вы не хотите пропустить какие-либо новости или научные открытия. Подпишитесь на нашу популярную рассылку Synced Global AI Weekly, чтобы получать еженедельные обновления AI.

NormFormer от Facebook AI использует дополнительную нормализацию для значительного улучшения Transformer ...

Вопросы по теме