Крупномасштабные предварительно обученные языковые модели достигли самых современных результатов по многим тестам обработки естественного языка (NLP), но эти модели, требующие большого количества данных, имеют тенденцию испытывать затруднения в условиях обучения с небольшим количеством кадров, где доступны только ограниченные данные обучения.

Чтобы решить эту проблему, команда из Массачусетского университета в Амхерсте и Google Research предложила самообучение с расширением задач (STraTA), новый подход, который сочетает в себе расширение задач и самообучение для использования немаркированных данных и повышения эффективности выборки и производительности модели. по задачам НЛП.

Команда резюмирует основной вклад своей работы следующим образом:

  1. Мы предлагаем расширение задач, новый метод тонкой настройки, основанный на увеличении данных, и демонстрируем его эффективность по сравнению с другими конкурирующими подходами к тонкой настройке.
  2. Мы предлагаем простой, но эффективный алгоритм самообучения и выделяем важные составляющие успешного самообучения, которые, как мы надеемся, позволят более широко использовать самообучение в НЛП.
  3. С помощью STraTA мы демонстрируем эффективность сочетания расширения задач и самообучения для повышения эффективности выборки в тестах НЛП.

Команда сначала представляет структуру для расширения задач, основная идея которой состоит в том, чтобы точно настроить предварительно обученную языковую модель для вспомогательной задачи, прежде чем применять ее к целевой задаче. Предыдущие подходы к расширению задач часто затруднялись из-за несоответствия между вспомогательными и целевыми задачами. Предлагаемый метод устраняет это ограничение за счет точной настройки предварительно обученной модели генеративного языка и использования ее для синтеза данных обучения в домене для вспомогательной задачи, чтобы повысить производительность модели в целевой задаче.

Исследователи используют логический вывод на естественном языке (NLI) в качестве вспомогательной задачи и настраивают предварительно обученную модель Google T5-3B на наборе данных MNLI, чтобы получить генератор данных NLI, который призван создавать расширенные примеры для всех целевых наборов данных. Преимущества этого подхода в том, что обучающие метки бесплатны; и, благодаря избыточной генерации, большой объем данных обучения NLI в домене может быть произведен даже для целевых задач с небольшими наборами данных.

В то время как расширение задачи использует немаркированные тексты для создания синтетических данных для промежуточной задачи, самообучение служит дополнительным подходом, разработанным для улучшения модели путем обучения непосредственно на целевой задаче с использованием псевдо-помеченных примеров. Таким образом, исследователи используют сильную базовую модель и позволяют ей учиться на всех доступных примерах с псевдо-метками на каждой итерации, экспериментируя с методами калибровки, такими как масштабирование температуры (Guo et al., 2017), сглаживание меток (Müller et al., 2019 ), а также штрафы за доверие для решения проблем самоуверенности и плохой калибровки современных языковых моделей.

Исследователи провели эксперименты с 12 наборами данных НЛП и тремя режимами данных (включая настройки нескольких снимков), чтобы сравнить STraTA с общими базовыми параметрами тонкой настройки, такими как LMFT и ITFTMNLI.

Результаты оценки показывают, что увеличение задачи значительно улучшает результаты последующих задач, добавление самообучения еще больше повышает производительность нижестоящей, когда доступны немаркированные примеры для конкретных задач, и что использование лучшей базовой модели приводит к лучшим результатам самообучения.

В целом, исследование демонстрирует, что предложенный подход STraTA может существенно повысить эффективность выборки в наборах данных эталонных тестов НЛП, указывая на то, что его комбинация увеличения задач и самообучения эффективна для повышения производительности обучения за несколько шагов.

Статья STraTA: Самообучение с расширением задач для лучшего обучения за несколько шагов находится на arXiv.

Автор: Геката Хе | Редактор: Майкл Саразен, Чейн Чжан

Мы знаем, что вы не хотите пропустить какие-либо новости или научные открытия. Подпишитесь на нашу популярную рассылку Synced Global AI Weekly, чтобы получать еженедельные обновления AI.