В документе, который в настоящее время рассматривается для ICLR 2022, команда Facebook AI Research представляет NormFormer, модификацию архитектуры преобразователя Pre-LN, предназначенную для улучшения сложности предварительного обучения и производительности последующих задач как для причинных, так и для замаскированных языковых моделей с незначительными дополнительными затратами на вычисления.

С момента своего появления в 2017 году трансформаторы стали ведущей архитектурой глубокого обучения. Исходный преобразователь использует нормализацию уровня, чтобы уменьшить дисперсию входных данных для подслоя во время предварительного обучения. Однако эта установка преобразователя Pre-LayerNorm страдает несоответствием величины градиента, поскольку градиенты, полученные на ранних уровнях, намного больше, чем на более поздних уровнях.

Предлагаемый NormFormer решает эту проблему, применяя три модификации к преобразователю Pre-LN: Норма уровня после самовнимания, масштабирование выходов самовнимания по голове и норма уровня после первого полностью подключенного уровня. / strong> Эти модификации добавляют небольшое количество обучаемых параметров, которые обеспечивают рентабельный способ для каждого уровня изменять величину его функций, значительно улучшая сложность предварительного обучения и производительность последующих задач, добавляя при этом незначительные затраты на вычисления. Исследование показывает, что NormFormer может повысить производительность без выстрела GPT3-Large (1,3B), а также точно настроить производительность при выполнении задач GLUE (General Language Understanding Evaluation).

В своем первом эксперименте исследователи Facebook предварительно обучили модели причинного языка (CLM) с пятью различными параметрами: Small (125M параметров), Medium (355M), Large (1,3B) и XL (2,7B). Они также обучили три крупномасштабные модели с параметрами 2.7B: GPT-3–2.7B с активациями GELU и два варианта GPT3–2.7B с активациями Relu2.

Во втором эксперименте была принята RoBERTa-base, архитектура Pre-LN и были доработаны как базовые модели маскированного языка (MLM), так и NormFormer, сообщая о лучшей производительности при проверке, установленной для задач в тесте GLUE.

В экспериментах с моделями CLM NormFormer превзошел GPT-3 всех размеров по точности нулевого выстрела, достигнув производительности GPT3-Large (1,3B) при нулевом выстреле на 60 процентов быстрее. Тем временем модели MLM NormFormer улучшили свои аналоги Pre-LN по каждой задаче, улучшив производительность точно настроенного GLUE на 1,9 процента.

Исследователи пришли к выводу, что добавление небольшого количества обучаемых параметров в нужные места в архитектуре может облегчить определенные проблемы и повысить производительность в современных сетях; и предположить, что в будущих исследованиях можно будет выяснить, существуют ли другие аналогично эффективные модификации, которые также могут обеспечить такие улучшения.

Код для обучения моделей NormFormer доступен на GitHub проекта. Статья NormFormer: Улучшенное предварительное обучение трансформатора с дополнительной нормализацией находится на arXiv.

Автор: Геката Хе | Редактор: Майкл Саразен

Мы знаем, что вы не хотите пропустить какие-либо новости или научные открытия. Подпишитесь на нашу популярную рассылку Synced Global AI Weekly, чтобы получать еженедельные обновления AI.