БАРТ: Все ли методы предварительной тренировки созданы равными?

Почему это важно?

В этой статье Lewis et al. представить ценную сравнительную работу по различным предтренировочным методикам и показать, как этот вид работы может быть использован для руководства крупными предтренировочными экспериментами, достигающими самых современных результатов (SOTA).

Что он предлагает?

Авторы предлагают основу для сравнения методов предварительной подготовки и целей языковой модели (LM). Эта структура фокусируется на том, как эти методы могут рассматриваться как искажение текста с помощью произвольной функции шумоподавления, в то время как языковая модель отвечает за его шумоподавление. После некоторых сравнительных экспериментов с использованием этой структуры, BART представлен как LM на основе трансформатора, который достигает характеристик SOTA.

Как это работает?

Фреймворк

Идея, лежащая в основе предлагаемой структуры, проста: они предполагают, что разделение языковых моделей и функций, с помощью которых искажаются тексты, полезно для сравнения различных методов предварительного обучения и посмотреть, как они работают на аналогичных моделях и различных тестах. С этой точки зрения предварительное обучение - это последовательность повторяющихся шагов:

Примените шумовую функцию к тексту
Языковая модель пытается реконструировать текст
Затем вычислите функцию потерь (обычно кросс-энтропию по исходному тексту), а затем распространите градиенты в обратном направлении и обновите веса модели.

Сравнение различных методов шумоподавления текста и целей LM

В первом эксперименте, используя структуру, представленную в начале статьи, авторы сравнили различные методы предварительного обучения и цели LM на меньшей, чем обычно, модели, BART-base. Модель использует 6-слойную, основанную на преобразователе, архитектуру seq2seq для автокодирования, как это было предложено Vaswani et al. Методы предварительного обучения, сравниваемые в экспериментах, можно разделить на те, которые работают на уровне токена, и те, которые работают на уровне предложения:

Выборка случайных токенов Token Masking заменяется на [MASK]
Удаление токена аналогично маскированию, но выбранный токен удаляется, и модель должна добавить на его место новый токен.
Заполнение токена отбирается несколько отрезков текста, т. е. смежных групповых токенов, а затем они заменяются токеном [MASK].
Перестановка предложений случайное перемешивание предложений в документе.
Вращение документа токен выбирается случайным образом в качестве начала документа, раздел перед начальным токеном добавляется в конец.

Интуитивно понятно, что методы, которые работают на уровне предложений, должны помочь LM изучить различные роли предложений в абзаце или более длинном тексте и в процессе помочь справиться с задачами генерации естественного языка (NLG).

Помимо методов предварительной подготовки, авторы также сравнивают различные цели LM, уделяя особое внимание тем, которые используются в BERT и GPT, а также методы, в которых пытались объединить лучшее из обоих миров:

Авторегрессия, слева направо, LM (GPT-2)
Маскированный LM (BERT) заменяет 15% токена на [MASK] и предсказывает соответствующие слова.
Перестановка LM (XLNet) слева направо, авторегрессионное обучение LM, но с произвольным выбором порядка слов для предсказания.
Многозадачная маскированная LM (UniLM) комбинация справа налево, слева направо, с использованием двунаправленного текста. ⅓ времени, используя каждый с общими параметрами.
Masked Seq2Seq (MASS) маскирует диапазон, содержащий 50% токенов, и обучается предсказанию замаскированных токенов.

Результаты первого эксперимента

По результатам этих первых экспериментов авторы делают важные выводы.

Маскировка токена имеет решающее значение

Только конфигурации с маскированием токена или его вариациями обеспечивают стабильно высокую производительность при выполнении различных задач.

Предварительная тренировка с письмом слева направо улучшает NLG

Цель классической языковой модели, несмотря на то, что она не справляется с заданиями на умозаключения или ответы на вопросы, достигает SOTA на ELI5 (Explain Like I’m 5).

Двунаправленные кодировщики имеют решающее значение для контроля качества

Игнорирование будущего контекста снижает производительность моделей с письмом слева направо.

Хотя методы предварительного обучения и цели LM важны, авторы отмечают тот факт, что они не дают полной картины. Они сообщают, что их пермутируемая языковая модель работает намного хуже, чем XLNet, потому что BART не хватает некоторых ценных архитектурных инноваций, представленных в XLNet.

Результаты масштабного предтренировочного эксперимента

После сравнительного эксперимента авторы обучили 12-уровневую архитектуру на основе трансформатора для автокодирования и с использованием гиперпараметров, аналогичных RoBERTa. Они использовали как маскировку токенов на 30%, так и перестановку предложений в качестве методов предварительного обучения текстового шума и запустили модель на 160 ГБ новостей, книг, историй и веб-текста, аналогично тому, что было сделано в RoBERTa.

BART лучше всего справляется с задачами абстрактного реферирования, особенно в тесте XSum, который содержит очень мало примеров сводок, в которых фразы присутствуют как в сводке, так и в исходном тексте. Помимо значительного превосходства предыдущих лучших систем по резюмированию, BART также хорошо справляется с задачами вывода естественного языка (NLI) и QA, где он находится на одном уровне с результатами SOTA.

Качественный анализ

В документе также представлены примеры резюме статей WikiNews, подготовленных версией BART, настроенной на основе набора данных XSum:

Из этих примеров кажется, что BART способен создавать связные грамматические предложения, которые отражают смысл текста, который он должен резюмировать. Он выделяет имена и места, почему игнорируются другие детали, такие как даты и цифры.

Если вы хотите резюмировать какой-то собственный текст, мы создали Блокнот Google Colab с использованием библиотеки Hugging Face.