Предварительная настройка / предметно-адаптивная предварительная подготовка языковых моделей

Предварительные языковые модели с архитектурой Transformer используются повсеместно в различных задачах НЛП. Результаты обычно убеждают людей, что эти контролируемые целевые функции действительно могут передавать некоторые знания последующим задачам. В этом посте я не собираюсь обсуждать эти методы предварительной тренировки, вместо этого я хотел бы поговорить о процессе, называемом предварительная настройка / адаптивная предварительная подготовка к предметной области как новый дополнительный способ повышения производительности. по стандартному предтренировочному этапу.

Я представлю и сосредоточусь на этих двух статьях:

[1] Не прекращайте предварительное обучение: адаптируйте языковые модели к предметам и задачам. Гуруранган и др., 2020.
[2] Маппет: массивные многозадачные представления с предварительной настройкой. Агаджанян и др., 2021.

Все мы знаем, что эти языковые модели обучаются на массивных текстовых данных, например, RoBERTa (Liu et al., 2019) обучается на более чем 160 ГБ данных. Однако многие из них по-прежнему сосредоточены на общей / стандартной области. Некоторые исследования показали преимущества непрерывного предварительного обучения на немаркированных данных, зависящих от предметной области, например, BioBERT (Lee et al., 2019) для биомедицинской области и ToD-BERT (Wu et al., 2020) для диалога, ориентированного на конкретные задачи. домен.

[1] в статье рассматриваются четыре области (публикации, новости и обзоры по биомедицине и информатике) и восемь задач классификации (по две в каждой области). Они показывают, что постоянное предварительное обучение в домене постоянно улучшает производительность задач из целевого домена как при высоком, так и при низком уровне ресурсов. Их базовая модель - RoBERTa.

Они определяют сходство предметной области посредством перекрытия словарного запаса между доменами. PT обозначает выборку из источников, аналогичных корпусу предварительной подготовки ROBERTA.

Неудивительно, что предварительное обучение с адаптацией к предметной области (или DAPT) обеспечивает лучшую производительность во всех задачах. Некоторые из них действительно улучшены с большим отрывом. Авторы также исследовали «предварительную настройку внешнего домена» (обозначается как ¬DAPT).

DAPT значительно превосходит адаптацию к нерелевантной области, что свидетельствует о важности предварительного обучения на данных, относящихся к предметной области. Более того, мы обычно можем обнаружить, что ¬DAPT приводит к худшей производительности, чем даже ROBERTA при выполнении конечных задач.

Помимо DAPT, авторы также пробовали адаптивное к задаче предварительное обучение (TAPT), имея в виду предварительное обучение на немаркированном обучающем наборе для данной задачи. Хотя он довольно мал по размеру данных, он гораздо более актуален для задачи и похож на последующие задачи. TAPT постоянно улучшает базовые показатели ROBERTA для всех задач в разных доменах. Они также исследуют
эффект от использования обоих методов адаптации вместе.

На мой взгляд, наиболее интересной частью этой работы является раздел 5 статьи под названием «Дополнение обучающих данных для адаптивного предварительного обучения». Они пытаются понять, как получить «наиболее релевантные» немаркированные данные из большого пула для предварительной настройки.

По сути, они сопоставляют немаркированные предложения с общим векторным пространством с использованием предварительно обученной модели. Затем для каждого предложения они определяют k ближайших соседей. (они также сравнивали. со случайной выборкой)

Они показывают, что kNN-TAPT превосходит TAPT во всех случаях нехватки ресурсов. RAND-TAPT обычно хуже, чем kNN-TAPT, но в пределах стандартного отклонения. По мере увеличения k производительность kNN-TAPT неуклонно увеличивается и приближается к DAPT. Дальнейшее изучение kNN-TAPT, такого как более сложный метод отбора данных, может стать захватывающим направлением исследований. Также интересен компромисс между разнообразием и актуальностью выбранных примеров.

[2] авторы вводят предварительную настройку, которая на самом деле представляет собой этап массового многозадачного обучения (MTL) перед общим этапом точной настройки. Они выполнили это около 50 задач по классификации, обобщению, ответам на вопросы и рассуждениям на основе здравого смысла. Они показывают, что стандартные схемы многозадачности могут быть нестабильными, поэтому они вводят новую схему обучения, которая использует масштабирование потерь и неоднородные по задачам пакеты, чтобы шаги градиента были более равномерно сбалансированы для нескольких различных конкурирующих задач. Метод называется MUPPET: Massive Multi-Task RePresentation с PrE-fineTuning.

В таблице показано количество использованных наборов данных для каждого типа задачи и количество образцов в обучающих и оценочных наборах.

В отличие от T5, они показывают, что включение вторичного этапа многозадачного обучения действительно приводит к лучшему представлению. Их многозадачная установка изучает более 4,8 млн контролируемых выборок по 4 семействам задач, классификации (кросс-энтропия), обобщению (сглаженная кросс-энтропия по меткам), пониманию машинного чтения (прогнозирование диапазона) и здравому смыслу (потеря ранжирования). Они представляют свой подход к предварительной настройке, который приводит к более стабильному и точному многозадачному обучению за счет внедрения новых схем оптимизации, масштабирования потерь и выборки задач.

Оптимизация: накопление градиентов между задачами (неоднородные пакеты) и улучшение точной настройки. Во-первых, они гарантируют, что каждая оптимизированная партия состоит из нескольких задач. Каждый рабочий выбирает случайный пакет из набора задач и вычисляет градиент, накопленный для окончательного обновления (64 графических процессора с градиентами для 64 выбранных задач). Они используют методы R3F / R4F (Агаджанян и др., 2020) для улучшения стабильности точной настройки.

Масштабирование потерь. Они обнаружили, что приведенное ниже статическое масштабирование работает хорошо, превосходя другие методы масштабирования потерь в ранних экспериментах. n (x) - функция, зависящая от потерь, например, для двоичной классификации n вернет два, а для генерации n вернет размер словаря.

Выборка данных: они обнаружили, что наборы данных с повышением / понижением выборки постоянно вредили многозадачному обучению по сравнению с предварительно обученными представлениями. У них возникли неуправляемые проблемы с переоборудованием и стабильностью. Поэтому они предпочитают поддерживать естественное распределение наборов данных на протяжении всех наших экспериментов.

Затем давайте познакомимся с этими экспериментальными таблицами:

Они отображают точность оценки RoBERTa для пяти наборов данных: RTE, BoolQ, RACE, SQuAD и MNLI в различных масштабах многозадачного обучения, измеряемых количеством наборов данных. Самым интересным моментом, который они обнаружили, является то, что: сначала производительность снижается до тех пор, пока не будет достигнута критическая точка относительно количества наборов данных, используемых платформой MTL для всех наборов данных, кроме одного.

Еще одним критическим фактором для того, чтобы заставить MTL изучать обобщаемые представления, является метод, с помощью которого реализуется MTL, в частности, выбор пакетов. Они экспериментировали с тремя схемами балансировки: однородный набор данных, однородный пакет и гетерогенный пакет.

однородный набор данных: сначала обучите набор данных A, затем обучите набор данных B
гомогенная партия: обучите одну партию из А и одну партию из Б.
гетерогенный пакет: обучите один пакет, содержащий данные A и B.

Мы видим важность правильного определения стратегии пакетной обработки для эффективного многозадачного обучения. Их выводы согласуются с данными Aghajanyan et al., 2020, которые показали, что последовательное обучение наборов данных ухудшает обобщаемые представления.

Кроме того, они хотят доказать гипотезу о том, что наборы данных с меньшими размерами имеют тенденцию к большему улучшению от обучения MTL. Они имитируют настройки низкого ресурса от 10% до 100% по оси x и оценивают различные контрольные точки модели от 0 до 40 предварительной тонкой настройки MTL по оси y. Мы видим, что при низком уровне ресурсов (10%) разрыв с предварительной настройкой и без нее вполне очевиден. Они также видят, что предварительно настроенные модели в более крупном масштабе намного эффективнее обрабатывают данные, чем стандартные предварительно обученные модели.

Не стесняйтесь обращаться ко мне, если я допустил ошибки или у вас возникнут вопросы. Лучшие исследования всегда выходят из обсуждения и сотрудничества.

Цените ваше чтение. :)

Предварительная настройка / предметно-адаптивная предварительная подготовка языковых моделей

Вопросы по теме