Обзор трансферного обучения в НЛП

Введение

Обработка естественного языка была постоянной областью исследований из-за ее применения во многих различных областях и областях. За последнее десятилетие языковые модели развились и достигли лучших результатов в стандартных задачах обработки естественного языка, таких как вопросы и ответы, распознавание именованных сущностей, маркировка частей речи и другие. Многие большие языковые модели были обучены и открыты для публичного использования для решения конкретной задачи каждого человека, а популярность трансферного обучения росла с растущей демократизацией высокопроизводительных предварительно обученных языковых моделей. Цель этой статьи — предоставить обзор методов, рассмотренных в Обзоре трансферного обучения при обработке естественного языка.

Архитектуры

Рекуррентные нейронные сети

Рекуррентные нейронные сети (RNN) представляют собой архитектуру нейронной сети, которая обрабатывает последовательные данные, передавая предыдущее состояние вместе с каждым входом. Основная проблема с RNN заключается в их способности переносить информацию с предыдущих шагов в длинной последовательности. Это называется проблемой исчезающего градиента, когда обратное распространение приводит к затуханию ошибки, поскольку потери распространяются в обратном направлении по всем слоям, практически не вызывая корректировок весов сети. Другой связанной с этим проблемой является проблема взрывающегося градиента, когда ошибки накапливаются по мере их распространения в обратном направлении и вызывают переполнение весов сети. Некоторыми решениями этой проблемы было использование слоев активации Rectified Linear Unit (ReLU), а затем и двунаправленной архитектуры Long Short Term Memory (LSTM). Блок LSTM состоит из вентилей и активаций, которые предотвращают как исчезновение, так и взрыв градиентов и слоев, которые могут хранить долгосрочную информацию. Ворота позволяют устройству LSTM сохранять или забывать информацию.

Двунаправленная архитектура LSTM использует преимущество объединения множества модулей LSTM в цепочку как слева направо, так и справа налево, чтобы больше узнать о естественном языке. Это дает преимущество в возможности обрабатывать долгосрочные зависимости последовательностей и иметь контекст прямого и обратного направлений, но довольно медленно обучается. Это привело к разработке Gated Recurent Unit (GRU). GRU — это более быстрая версия LSTM.

Кодер-декодер

Архитектура кодер-декодер представляет собой модель последовательности для последовательности. Компонент кодировщика кодирует текстовый ввод в вектор контекста. Компонент декодера декодирует вектор обратно в текст выходной последовательности.

Внимание

В архитектуре, основанной на внимании, кодировщик остается прежним. С другой стороны, декодер обрабатывает разные части исходного предложения на каждом этапе генерации вывода. Его скрытое состояние вычисляется с помощью вектора контекста, предыдущего вывода и предыдущего скрытого состояния.

Сверточные нейронные сети

Сверточные нейронные сети (CNN) используют слои свертки и максимального объединения для подвыборки и извлечения признаков из данных изображения. Он использовался в языковом моделировании для множества задач.

Типы языковых моделей

Однонаправленные языковые модели: каждый токен использует только левый или правый контекст для обучения
Двунаправленные языковые модели: каждый токен может использовать любой токен в контексте.
Маскированные языковые модели: в двунаправленном LSTM маскируют некоторые токены и предсказывают их.
Языковые модели последовательностей: преобразует последовательность из одного домена в последовательность в другом домене другой длины.
Языковые модели кодировщик-декодер: кодируйте последовательность с помощью кодировщика и предсказывайте следующую последовательность с помощью декодера.

Трансферное обучение

Теперь, когда мы обсудили различные типы моделей естественного языка, мы можем обсудить, как применять эти методы к более конкретным задачам. Трансферное обучение — это широко используемый метод, позволяющий использовать уже существующие предварительно обученные веса модели, которые были обучены для выполнения общей задачи, и передавать те же самые веса для продолжения обучения на более конкретном наборе данных.

Существует два типа трансферного обучения:

Трансдуктивное трансферное обучение: та же задача для изучения, но целевая область отличается от области, в которой проводится обучение.
Индуктивное трансферное обучение: другая задача для изучения, но мы пометили данные в целевой области.

Трансдуктивное трансферное обучение

У нас часто есть та же цель, что и у ранее обученной модели, но мы хотим применить модель к другому набору данных. Примером этого может быть модель анализа настроений, обученная на обзорах фильмов, но мы хотим применить ее к обзорам ресторанов.

Индуктивное трансферное обучение

Тонкая настройка

Веса предварительно обученной модели будут повторно использоваться для изучения новой задачи. Параметры исходной модели на каждом слое могут измениться

Вложения функций

Мы можем изучить векторные представления для слов или предложений и использовать их в качестве входных данных для модели, чтобы узнать дополнительные веса для последующей задачи.

Обучение с нуля

Мы также можем применить предварительно обученную модель к совершенно новой задаче без какой-либо дополнительной тонкой настройки или обучения и оценить ее производительность в новой задаче. Это означает, что мы можем применить модель к проблеме, для решения которой она не была специально обучена.

Языковые модели

Были изучены различные популярные языковые модели, чтобы обеспечить дальнейшее трансфертное обучение и точную настройку задач на естественном языке.

УЛМФИТ

Первоначально ULMFiT обучался с использованием модели AWD-LSTM на большом наборе данных и добавил несколько слоев классификации для обучения задачам классификации текста. Это модель, предназначенная для тонкой настройки универсальной классификации текстов.

БЕРТ

Представления двунаправленного кодировщика от преобразователей (BERT) — это архитектура на основе преобразователя, которая изучает двунаправленные представления слов. Он обучается на языковой задаче в маске и задаче прогнозирования следующего предложения.

ЭЛМО

ELMo — это двунаправленная модель LSTM, которая изучает глубокие представления естественного языка.

РОБЕРТа

Эта модель оптимизируется поверх BERT, обучаясь на более длинных последовательностях с большим количеством данных после обнаружения того, что BERT был недостаточно обучен. Они убрали задание на предсказание следующего предложения и изменили языковое задание в маске.

ГПТ-2

Модель GPT основана на архитектуре трансформатора и может выполнять обучение с нулевым импульсом для различных последующих задач. Обычно рекомендуется для генеративных задач.

Вывод

Недавние достижения в обработке естественного языка постоянно улучшали современные результаты в общих задачах естественного языка, таких как вопросы и ответы, обобщение текста, перевод и классификация текста. От рекуррентных нейронных сетей до LSTM и новых архитектур преобразователей в модели вносятся улучшения, позволяющие улучшить точную настройку модели для последующих задач.