Ограничения моделей глубокого обучения, такие как необходимость в большом количестве данных для обучения моделей, а также потребность в огромных вычислительных ресурсах, вынуждают исследовать возможности передачи знаний. В настоящее время появляется много больших моделей DL, которые требуют трансфертного обучения. Этот опрос направлен на обсуждение последних достижений в использовании трансферного обучения в обработке естественного языка (NLP). Большая часть работы в этом посте взята из «Исследование передачи обучения при обработке естественного языка» ( Alyafeai et al. 2020).

Модели, используемые для НЛП

Начнем с различных моделей, которые используются для НЛП на основе трех основных архитектур.

  1. Рекуррентные модели

Рекуррентные нейронные сети (RNN) обрабатывают последовательные данные. В RNN мы передаем предыдущее состояние модели вместе с каждым вводом, чтобы они узнали последовательный контекст. RNN отлично справились со многими задачами, такими как распознавание речи, перевод, генерация текста, классификация временных рядов и биологическое моделирование. RNN, к сожалению, страдают от проблемы исчезающего градиента из-за использования обратного распространения ошибки и его последовательного характера. Из-за проблемы исчезающего градиента ошибка сильно уменьшается по мере прохождения через повторяющиеся слои. Чтобы решить эту проблему, появилось много идей, таких как использование выпрямленного линейного модуля (ReLU) в качестве функции активации, затем архитектуры с длительной краткосрочной памятью (LSTM), двунаправленных LSTM, стробированных рекуррентных сетей (GRU). GRU - это самые быстрые версии LSTM и могут превзойти LSTM в некоторых задачах, таких как автоматический захват грамматических свойств входных предложений.

2. Модели, основанные на внимании

В дополнение к вышеупомянутым проблемам RNN, он дает одинаковый вес каждой последовательности слов по отношению к текущему обработанному слову. Кроме того, он объединяет активации последовательности в один вектор, что заставляет процесс обучения забыть о словах, которые были введены в прошлом. С другой стороны, модели, основанные на внимании, обращают внимание на каждое слово по-разному для входных данных на основе оценки сходства. Внимание может быть применено между разными последовательностями или в одной и той же последовательности, которая называется самовниманием.

3. Модели на основе CNN

Сверточные нейронные сети (CNN) изначально были предложены для задач распознавания изображений, таких как распознавание символов. Он использует сверточные слои и слои с максимальным объединением для подвыборки. Сверточные слои извлекают объекты, а объединяющие слои уменьшают пространственный размер извлеченных объектов. В НЛП CNN успешно использовались для задач классификации предложений, таких как обзоры фильмов, классификация вопросов и т. Д. CNN на уровне символов использовались для классификации текста. CNN также использовались в языковом моделировании, где стробированные сверточные слои использовались для сохранения больших контекстов и могут быть распараллелены по сравнению с традиционными рекуррентными нейронными сетями.

языковые модели

Языковое моделирование - это изучение распределения вероятностей по набору лексем, взятых из фиксированного словаря. Ниже приведены различные подходы, описанные в литературе.

  1. Однонаправленный LM:. В этом методе мы рассматриваем токены, которые находятся либо слева от текущего контекста, либо справа. Это также известно как авторегрессивное кодирование.
  2. Двунаправленный LM:. В этом методе каждый токен может соответствовать любому другому токену в текущем контексте. При использовании этой техники задача предсказания следующего слова становится несущественной, так как любой токен может выполнять предсказание следующего слова. Чтобы преодолеть это, мы обычно используем маскированные языковые модели.
  3. Маскированный LM: этот метод обычно используется в двунаправленном LM, где мы случайным образом маскируем некоторые токены в текущем контексте, а затем прогнозируем эти маскированные токены. Это также называется автоматическим кодированием шумоподавления.
  4. Последовательность LM:. Этот метод включает в себя разделение входных данных на две отдельные части. В первой части каждый токен может видеть контекст любого другого токена в этой части, но во второй части каждый токен может обслуживать только токены слева.
  5. LM с перестановкой: эта языковая модель сочетает в себе преимущества как авторегрессивного, так и автоматического кодирования.
  6. Кодер-декодер LM: по сравнению с другими подходами, в которых используется один стек блоков кодировщика / декодера, в этом подходе используются оба блока.

В следующей таблице показано сравнение различных предварительно обученных моделей в литературе.

Наборы данных

В прошлом для задач НЛП использовалось множество наборов данных. В следующей таблице приводится сводка некоторых наборов данных.

Трансферное обучение

Теперь мы собираемся обсудить трансферное обучение в НЛП. Если у нас есть кортеж (Ds, Ts) исходной области-задачи и другой кортеж (Dt, Tt) целевой области-задачи, трансферное обучение можно определить как процесс использования исходного домена и задачи в процессе обучения задаче целевого домена. С математической точки зрения цель трансферного обучения - изучить целевое условное распределение вероятностей P (Yt | Xt) в Dt с полученной информацией. от Ds, а где Ds ≠ Dt или Ts ≠ Tt. В следующей таблице мы сравниваем разные сценарии, когда пара доменов отличается или пара задач отличается.

Типы трансферного обучения

Трансферное обучение в НЛП можно условно разделить на две категории:

  1. Трансдуктивное трансферное обучение
  2. Индуктивное переносное обучение

Трансдуктивное трансферное обучение

Трансдуктивное трансферное обучение - это когда для одной и той же задачи целевой домен или задача не имеет помеченных данных или имеет очень мало помеченных образцов. Далее его можно разделить на следующие подкатегории:

А. Адаптация домена:. Это включает изучение другого распределения данных в целевом домене. Это полезно, если новая задача для обучения имеет другое распределение или количество помеченных данных ограничено. В одной из недавних работ для передачи знаний из нескольких областей в одну область исследователи применили модель учитель-студент без учителя. Для определения подобия предметной области они использовали три показателя: расхождение Реньи, расхождение Дженсена-Шеннона и максимальное среднее расхождение. Из 12 пар доменов модель достигла самых современных результатов по 8 для неконтролируемой адаптации домена из одного источника.

Другая работа заключалась в использовании адаптации состязательного домена для обнаружения повторяющихся вопросов. Этот подход состоял из трех основных компонентов: кодировщика, функции подобия и модуля адаптации домена. Кодировщик закодировал вопрос и был оптимизирован, чтобы обмануть классификатор домена, что вопрос был из целевого домена. Функция подобия рассчитывала вероятность того, что пара вопросов обнаружит, что они похожи или повторяются. А компонент адаптации домена использовался для уменьшения разницы между распределениями целевого и исходного домена. Этот подход оказался лучше и обеспечил среднее улучшение примерно на 5,6% по сравнению с лучшим тестом для разных пар доменов.

Б. Межъязыковое трансферное обучение: это включает адаптацию к другому языку в целевом домене. Этот подход полезен, когда мы хотим использовать язык с большими ресурсами для изучения соответствующих задач на языке с низким уровнем ресурсов. В одной из работ исследователи предложили модель pos-тегирования в кросс-языковой среде, где языки ввода и вывода имеют разные размеры ввода. В модели использовались два двунаправленных LSTM (BLSTM), называемых общим и частным BLSTM. Общий BLSTM имел общие параметры между языками, тогда как частный BLSTM имел параметры, специфичные для языка. Затем выходные данные двух модулей использовались для извлечения тегов POS с использованием кросс-энтропийной оптимизации потерь. В этом модельном языке используется состязательное обучение, которое заставляет общий BLSTM быть языково-независимым. Этот подход показал значительные результаты для POS-тегов на 14 языках без каких-либо лингвистических знаний о связи между исходным и целевым языками.

В другой работе новый набор данных использовался для оценки трех различных методов межъязыковой передачи в задаче классификации намерений пользователя и обнаружения временных интервалов. Набор данных содержал 57 тысяч аннотированных высказываний на английском, тайском и испанском языках и был разделен на три области: напоминания, погода и тревога. Использовались три метода кросс-языковой передачи: перевод обучающих данных с использованием кросс-языковых предварительно обученных встраиваний и новые методы использования многоязычных кодировщиков машинного перевода в качестве контекстных представлений слов. Последние два метода превзошли метод перевода на целевом языке, который имел всего несколько сотен обучающих примеров, то есть на целевом языке с ограниченными ресурсами.

Индуктивное переносное обучение

Индуктивное переносное обучение - это когда для разных задач в исходном и целевом домене мы помечаем данные только в целевом домене. Его можно разделить на две подкатегории:

А. Последовательное трансферное обучение: оно включает в себя последовательное изучение нескольких задач. Далее он разделен на пять подкатегорий:

Последовательная точная настройка. Тонкая настройка включает обучение предварительно обученной модели выполнению целевой задачи. В этой категории за последние несколько лет проделана огромная работа. Одна из недавних работ связана с моделью единой предварительно обученной языковой модели, то есть UNILM. Он объединяет три различные цели обучения для предварительного обучения модели унифицированным способом, который включает однонаправленный, двунаправленный и последовательный. Модель UNILM позволила достичь самых современных результатов в решении различных задач, включая генеративные ответы на вопросы, абстрактное обобщение и создание диалоговых ответов на основе документов.

Другая работа связана с изучением эффективности извлечения знаний с помощью больших языковых моделей. В этой работе исследователи исследовали задачу ответов на вопросы в открытой области с ограничением, что какие-либо внешние ресурсы не могут быть найдены для ответа на вопросы. Исследование проводилось с использованием предварительно обученной модели T5, которая имеет 11 миллиардов параметров и, следовательно, может хранить большой объем знаний, которые можно извлечь для конкретной задачи. Кроме того, T5 - это модель преобразования текста в текст, которая делает его подходящим для решения задач, связанных с ответами на вопросы в открытой предметной области. Задача была сопоставлена ​​с моделью T5 с использованием вопроса в качестве входных данных с конкретной меткой задачи и предсказывала ответ в качестве выходных данных. Результаты показывают, что этот подход превосходит модели, которые явно ищут ответы с использованием внешнего домена.

Модули адаптера: они представляют собой компактный и расширяемый метод обучения передачи для НЛП, который обеспечивает эффективность параметров путем добавления только нескольких обучаемых параметров для каждой задачи, а также по мере добавления новых задач к предыдущим. не требуют пересмотра. В последней работе адаптерные модули использовались для разделения параметров между различными задачами путем тонкой настройки модели BERT. Использовались слои проецируемого внимания (PAL), которые представляют собой низкоразмерные слои внимания с несколькими головами, которые тренируются параллельно со слоями внимания BERT. Модель была оценена по задачам GLUE и получила самые современные результаты по набору текста при достижении эффективности параметров.

На основе характеристик: при таком подходе представления предварительно обученной модели передаются в другую модель. Это дает преимущество повторного использования модели для конкретных задач для аналогичных данных. Кроме того, функция однократного извлечения экономит много вычислительных ресурсов, если одни и те же данные используются повторно. В одной из недавних работ исследователи использовали полууправляемый подход для задачи маркировки последовательностей. Использовалась предварительно обученная модель нейронного языка, обученная без учителя. Это была двунаправленная языковая модель, в которой объединены прямое и обратное скрытые состояния. Затем выходные данные дополнялись представлениями токенов и передавались в модель тегирования контролируемой последовательности (TagLM), которая затем обучалась контролируемым способом для вывода тега каждой последовательности. Использовались наборы данных CoNLL 2003 NER и CoNLL 200 chunking. Модель достигла самых современных результатов по обеим задачам по сравнению с другими формами трансферного обучения.

Нулевой выстрел: это простейший подход, при котором для данной предварительно обученной модели мы не применяем никаких процедур обучения для оптимизации / изучения новых параметров. В недавнем исследовании исследователи использовали нулевой перенос при классификации текста. Каждая задача классификации была смоделирована как проблема следования текста, где положительный класс означал следствие, а отрицательный класс означал, что нет. Затем предварительно обученная модель Берта по классификации текста в сценарии с нулевым выстрелом была использована для классификации текстов в различных задачах, таких как обнаружение эмоций, категоризация тем и обнаружение рамок ситуации. Такой подход позволил достичь большей точности в двух из трех задач по сравнению с неконтролируемыми задачами, такими как Word2Vec.

Б. Многозадачное обучение: предполагает одновременное изучение нескольких задач. Например, если нам дается предварительно обученная модель и мы хотим передать обучение нескольким задачам, тогда все задачи изучаются параллельно.

Тонкая настройка многозадачности: в недавней работе исследователи использовали этот подход, чтобы изучить эффект от использования унифицированного преобразователя преобразования текста в текст (T5). Используемая архитектура была аналогична модели Transformers с сетью кодировщика-декодера. Но он использовал полностью видимое маскирование вместо случайного, особенно для входных данных, которые требуют предсказаний на основе префикса, подобного переводу. Набор данных, используемый для обучения моделей, был создан из общего набора данных обхода, который составлял около 750 ГБ. Для обучения модели на таком большом наборе данных требовалось около 11 миллиардов параметров. Многозадачные предварительно обученные модели использовались для эффективного выполнения различных задач, где модели были обучены различным задачам с использованием таких префиксов, как «Перевести с английского на немецкий». Благодаря точной настройке модели были достигнуты самые современные результаты по различным задачам, таким как классификация текста, обобщение и ответы на вопросы.

Выводы и перспективы на будущее

В этом обзоре мы видим, что модели, основанные на внимании, более популярны по сравнению с языковыми моделями на основе RNN и CNN. Кроме того, BERT, по-видимому, является архитектурой по умолчанию для языкового моделирования из-за его двунаправленной архитектуры, которая делает его успешным во многих последующих задачах. В методах трансферного обучения, используемых для НЛП, последовательная точная настройка кажется наиболее популярным подходом. Кроме того, в последние годы, похоже, набирает популярность точная настройка для нескольких задач, поскольку многие исследования показали, что обучение нескольким задачам одновременно дает лучшие результаты. Кроме того, мы видим, что наборы данных классификации текста более широко используются по сравнению с другими задачами в НЛП, потому что точная настройка моделей в таких задачах проще.

Для будущей работы рекомендуется использовать двунаправленные модели, такие как BERT, для конкретных задач, таких как абстрактные ответы на вопросы, классификация настроений и теги частей речи, а также модели, такие как GPT-2, T5, для генеративных задач, таких как генеративные ответы на вопросы, обобщение и т. Д. генерация текста. Кроме того, в будущем адаптерные модули могут заменить последовательную тонкую настройку, поскольку они показывают результаты, сопоставимые с традиционной тонкой настройкой, а также будут быстрее и компактнее благодаря совместному использованию параметров. В заключение я считаю, что необходимо провести обширное исследование, чтобы уменьшить размер этих более крупных языковых моделей, чтобы их можно было легко развернуть на встроенных устройствах и в Интернете.

использованная литература