ALBERT представляет определенные методы уменьшения параметров для снижения потребления памяти и увеличения скорости обучения BERT.

Выбор архитектуры модели

Основа архитектуры ALBERT аналогична BERT тем, что в ней используется кодер-трансформер с нелинейностями GELU. ALBERT использует размер прямой связи/фильтра как 4H и количество головок внимания как H/64. где H — скрытый размер в BERT.

Как и в случае с BERT, во всех экспериментах с ALBERT используется словарный запас V, равный 30 000.

Факторизированная параметризация встраивания

В BERT, а также в последующих улучшениях моделирования размер встраивания WordPiece E связан с размером скрытого слоя H, т. е. E ≡ H. Это решение кажется неоптимальным:

С точки зрения моделирования, вложения WordPiece предназначены для изучения контекстно-независимых представлений, тогда как вложения со скрытым слоем предназначены для изучения контекстно-зависимых представлений. Отвязывание размера встраивания WordPiece E от размера скрытого слоя H позволяет нам более эффективно использовать общие параметры модели в соответствии с потребностями моделирования, которые диктуют, что H >> E.

С практической точки зрения обработка естественного языка обычно требует, чтобы размер словаря V был большим. Если E ≡ H, то увеличение H увеличивает размер матрицы вложения, которая имеет размер V × E. Это может легко привести к созданию модели с миллиардами параметров, большинство из которых редко обновляются во время обучения.

Поэтому для ALBERT мы используем факторизацию параметров вложения, разбивая их на две меньшие матрицы. Вместо того, чтобы проецировать горячие векторы непосредственно в скрытое пространство размера H, мы сначала проецируем их в пространство вложения меньшего измерения размера E, а затем проецируем его в скрытое пространство. Используя это разложение, мы уменьшаем параметры вложения с O(V × H) до O(V × E + E × H). Снижение этого параметра существенно, когда H ›› E.

Обмен параметрами между уровнями

ALBERT предлагает межуровневое совместное использование параметров как еще один способ повысить эффективность параметров. Существует несколько способов совместного использования параметров, например, совместное использование только параметров сети прямой связи (FFN) между слоями или совместное использование только параметров внимания. Решение по умолчанию для ALBERT состоит в том, чтобы разделить все параметры между слоями.

Потеря связности между предложениями

В дополнение к потерям при моделировании маскированного языка (MLM) BERT использует дополнительную потерю, называемую прогнозированием следующего предложения (NSP). Последующие исследования показали, что влияние NSP ненадежно, и было принято решение об его устранении, решение, подкрепленное улучшением производительности последующих задач в нескольких задачах.

АЛЬБЕРТ предполагает, что основной причиной неэффективности ПОШ является его несложность как задачи.

То есть для ALBERT мы используем потерю предсказания порядка предложений (SOP). Потеря SOP использует в качестве положительных примеров тот же метод, что и BERT (два последовательных сегмента из одного и того же документа), а в качестве отрицательных примеров - те же два последовательных сегмента, но с измененным порядком. Это заставляет модель изучать более тонкие различия свойств согласованности на уровне дискурса.

Настройка модели

ALBERT-large имеет примерно в 18 раз меньше параметров по сравнению с BERT-large, 18M против 334M.

Конфигурация ALBERT-xlarge с H = 2048 имеет всего 60 миллионов параметров.

Конфигурация ALBERT-xxlarge с H = 4096 имеет 233 млн параметров, т. е. около 70% параметров BERTlarge.

Чтобы сравнение было максимально информативным, мы следуем настройке BERT при использовании BOOKCORPUS и английской Википедии для предварительной подготовки базовых моделей.

Полученные результаты

Бумага

АЛЬБЕРТ: облегченный BERT для самостоятельного изучения языковых представлений 1909.11942

Просмотреть все темы этой серии здесь