Трансферное обучение

Трансферное обучение позволяет модели учиться на неограниченном количестве данных и применять предварительно обученную модель в последующей задаче, в то время как предварительно обученные задачи могут отличаться от последующей задачи. Это особенно полезно при обработке естественного языка (NLP), поскольку помеченные данные редки и ценны, в то время как у нас может быть множество немаркированных данных.

Исходя из word2evc (Миколов и др., 2013), НЛП использует трансферное обучение для обучения предварительно обученной модели на немаркированных данных. BERT (Devlin et al., 2019) - еще одна важная веха в НЛП в трансфертном обучении. Команда Google недавно выпустила модель, и она может стать следующей важной вехой в НЛП. Модель называется преобразователем преобразования текста в текст (T5) (Raffel et al., 2019).

Из названия модели вы, возможно, уже знаете, что архитектура T5 Transformer и использует трансферное обучение. В этой истории не будет подробно рассказываться об архитектуре трансформатора, хотя вы можете посетить этот блог, чтобы понять это. Следующие разделы организованы Вход и выход, Конфигурация обучения, Цель обучения и Стратегия обучения.

Вход и выход

T5 (Raffel et al., 2019) - это модель, позволяющая вводить текст в модель, в то время как вывод также является текстом. Благодаря этому гибкому дизайну модель обучается на большом количестве немаркированных данных, и все задачи имеют одну и ту же цель, процедуру обучения и процесс декодирования.

Чтобы модель знала, какую задачу необходимо решить, нужен текст префикса. Например, «перевести с английского на немецкий:» - это префикс для задачи машинного перевода. Для задачи регрессии (STS-B) ожидаемым результатом является оценка подобия от 1 до 5. Модель выводит текст, соответствующий числу от 1 до 5.

Авторы также конвертируют задачи Винограда (например, WNLI, WSC) для предсказания неоднозначных местоимений. Перед предсказанием нужно указать местоимение для предсказания. Просто преобразование: «Члены городского совета отказали демонстрантам в разрешении, потому что они опасались насилия». «Городские советники отказали демонстрантам в разрешении, потому что *they* опасались насилия». Ожидаемый результат от модели - «Городские депутаты».

Конфигурация обучения

  • Словарь: кодируйте текст с помощью SentencePiece (Кудо и Ричардсон, 2018), а максимальный размер подслова составляет 32 КБ для английского, немецкого, французского и румынского языков.
  • Скорость обучения: 0,01 для первых 10⁴ шагов и экспоненциально затухает до конца.
  • График скорости обучения: 1 / sqrt (max (n, k)), в то время как текущая итерация обучения, а k - количество шагов разминки (k равно 10⁴ во всех экспериментах).

Цель обучения

То же, что и BERT (Devlin et al., 2019), Raffel et al. использовать моделирование маскированного языка (MLM) в качестве цели обучения без учителя. Отбрасывая 15% токенов, это позволяет модели учиться на зашумленных данных.

BERT заменяет 90% токенов на один токен (т.е. ‹MASK›) и 10% токенов на случайный токен, в то время как T5 заменяет токены последовательным набором поврежденных токенов (например, ‹X›, ‹Y› и ‹Z›). Кроме того, последовательные слова будут заменены одним токеном диапазона, а не несколькими токенами.

Вместо того, чтобы использовать уровень коррупции по умолчанию (т.е. 15%), Raffel et al. оценили разные ставки, чтобы увидеть влияние. Вывод заключается в том, что уровень коррупции ограниченно повлиял на производительность модели.

Raffel et al. оценили средний диапазон поврежденного токена диапазона, чтобы увидеть влияние на производительность модели. Например, общий токен и общий диапазон поврежденных токенов составляют 500 и 25, в то время как процент поврежденных токенов составляет 15%. Общее количество замаскированных токенов составляет 75 (500 x 15%), а средняя длина диапазона составляет 3 (75/25). Вывод: это ограниченно влияет на характеристики модели.

Стратегия обучения

Помимо цели обучения, Raffet et al. оценили влияние тренировочных стратегий. В следующем разделе рассматривается тонкая настройка, многозадачность.

Тонкая настройка

У нас есть три подхода к модели тонкой настройки для последующих задач. Первый метод fine-tuning all pre-trained layers при обучении последующих задач. Второй метод - это frozen the pre-trained layer, при этом обновляются только уровни адаптера при обучении последующих задач. Третий метод - постепенное размораживание. Предварительно обученные слои со временем разморозятся. Gradual unfreezing представлен Ховардом и Рудером в 2018 году.

Многозадачность

Обычное многозадачное обучение включает в себя одну модель, которая может выполнять множество задач, разделяя большинство параметров модели. Raffel et al. расслабьте его и разрешите разные контрольные точки для разных задач. Авторы уточняют понятие «многозадачность», поскольку более важно смешивать наборы данных и полагать, что данные достаточно хороши для обучения.

Первый подход - equal mixing. Другими словами, данные будут выбираться из всех наборов данных случайным образом. Это просто, но эта модель лучше подходит для задач с низким уровнем ресурсов и недостаточно подходит для задач с высоким уровнем ресурсов.

Альтернативный способ - examples-proportional mixing - это способ выборки предварительно определенного размера данных из нескольких наборов данных. Некоторые наборы данных больше, чем другие наборы данных, и это вызвало проблему дисбаланса данных, если просто случайные данные во всех наборах данных. Поэтому рекомендуется установить искусственный «лимит» размера данных для каждого набора данных. Другими словами, часть данных будет использоваться для выборки данных, если размер набора данных превышает пороговое значение.

Третий подход - temperature-scaled mixing, который разработан для решения проблемы нехватки данных в ресурсах. Вместо того, чтобы устанавливать верхний предел для каждого набора данных, для каждого набора данных будет использоваться одинаковый объем данных. 1 / T - коэффициент масштабирования для определения размера набора данных. Когда T равно 1, этот подход эквивалентен примерам пропорционального смешивания. Когда T увеличивается, он приближается к equal mixing.

Пока что предтренировочный подход превосходит многозадачный подход.

Чтение расширений

Ссылка