Введение в многозадачные глубокие нейронные сети для понимания естественного языка

BERT (Devlin et al., 2018) получил в 2018 году новейший результат по множеству задач НЛП. Он использовал архитектуру трансформатора для изучения contextualized word embeddings, так что эти векторы лучше отражают смысл в различных проблемах предметной области. Чтобы расширить использование BERT, Liu et al. предложил Multi-Task Deep Neural Networks (MT-DNN) для достижения современного результата в решении множества проблем НЛП. BERT помог создать общее текстовое представление в MT-DNN, в то время как часть тонкой настройки использует многозадачное обучение.

В этом рассказе будет обсуждаться Многозадачные глубокие нейронные сети для понимания естественного языка (Liu et al., 2019), а также будет рассмотрено следующее:

  • Многозадачное обучение
  • Данные
  • Архитектура
  • Эксперимент

Многозадачное обучение

Multi-task learning - это одна из форм трансфертного обучения. Изучая знания из нескольких вещей, нам не нужно изучать все с нуля, но мы можем применять знания, полученные из других задач, чтобы сократить кривую обучения.

Если взять в качестве примера лыжи и сноуборд, вам не нужно тратить много времени на изучение сноуборда, если вы уже освоили катание на лыжах. Это потому, что оба вида спорта обладают определенными навыками, и вам просто нужно понимать, что разные части подходят. Недавно я узнал от друзей, что он мастер по сноуборду. На то, чтобы освоить лыжи, он потратил всего 1 месяц.

Возвращаясь к науке о данных, исследователи и ученые считают, что трансферное обучение можно применять при изучении представления текста. GenSen (Sandeep et al., 2018) продемонстрировал, что многозадачное обучение улучшает встраивание предложений. Часть текстового представления может быть изучена из различных задач, и эти общие параметры могут быть переданы обратно, чтобы узнать более точные веса.

Данные

Ввод - это последовательность слов, которая может быть одним предложением или объединением двух предложений вместе с разделителем. Как и BERT, предложения будут токенизироваться и преобразовываться в начальные вложения слов, вложения сегментов и вложения позиций. После этого будет использован многосторонний двунаправленный преобразователь для изучения контекстных встраиваний слов. Другая часть использует многозадачность для изучения текстового представления и применяет его к индивидуальной задаче на этапе тонкой настройки.

Архитектура МТ-DNN

MT-DNN должен пройти два этапа для обучения модели. Первый этап включает в себя предварительное обучение Lexicon Encoder и Transformer Encoder. Следуя BERT, оба кодировщика обучаются моделированию замаскированного языка и предсказанию следующего предложения. Второй этап - доводочная часть. применяется мини-пакетный базовый стохастический градиентный спуск (SGD).

В отличие от обучения с одной задачей, MT-DNN будет вычислять потери по разным задачам и одновременно применять изменения к модели.

Потеря - это разница в разных задачах. Для задачи классификации это проблема двоичной классификации, поэтому используется потеря кроссэнтропии. Для задачи на подобие текста используется среднеквадратическая ошибка. Для задачи ранжирования используется отрицательное логарифмическое правдоподобие.

На приведенном ниже рисунке архитектуры общие слои передают текст для контекстного встраивания через BERT. После общих слоев он будет проходить через разные подпотоки для изучения представления для каждой конкретной задачи. Слои для конкретных задач обучаются для решения конкретных задач, таких как классификация отдельных предложений и попарное сходство текста.

Эксперимент

MT-DNN основан на реализации BERT в PyTorch и гиперпараметрами являются:

  • Оптимизатор: Adamax
  • Уровень обучения: 53–5
  • Размер партии: 32
  • Максимальная эпоха: 5
  • Показатель отсева: 0,1

Забрать

  • Даже схожая архитектура (например, BERT), более качественные текстовые представления могут быть изучены с помощью нескольких задач НЛП.

Обо мне

Я специалист по анализу данных в Bay Area. Сосредоточение внимания на последних достижениях науки о данных, искусственного интеллекта, особенно в области НЛП и связанных с ними платформ. Вы можете связаться со мной из Medium Blog, LinkedIn или Github.

Чтение расширений

Двунаправленные представления кодировщика от трансформаторов (BERT)

Распределенное представление предложений общего назначения (GenSen)

Ссылка

Девлин Дж., Чанг М. В., Ли К., Тутанова К., 2018. BERT: предварительная подготовка глубоких двунаправленных преобразователей для понимания языка

Сандип С., Адам Т., Йошуа Б., Кристофер Дж. П., Изучение распределенных представлений предложений общего назначения с помощью крупномасштабного многозадачного обучения. 2018 г.

Лю Х. Д., Хе П. С., Чен В. З., Гао Дж. Ф. 2019. Многозадачные глубокие нейронные сети для понимания естественного языка