Исследователи предлагают модификации предтренировочной процедуры BERT, которые улучшают выполнение конечных задач

Это резюме исследования - лишь одно из многих, которые еженедельно распространяются в информационном бюллетене для ученых в области ИИ. Чтобы начать получать еженедельную рассылку, зарегистрируйтесь здесь.

BERT считается значительным скачком в мире искусственного интеллекта, несомненно, принесшим прорыв в машинном обучении для нескольких задач обработки естественного языка (NLP). Хотя предварительное обучение языковой модели привело к значительному увеличению производительности, тщательное сравнение различных подходов является сложной задачей.

Обучение требует больших вычислительных ресурсов и в основном проводится на частных наборах данных разного размера. Может ли выбор гиперпараметров существенно повлиять на результаты обучения?

Надежно оптимизированный подход к предварительному обучению BERT (RoBERTa)

RoBERTa (надежно оптимизированный подход к предварительному обучению BERT) - это недавняя статья, представленная исследователями из Школы компьютерных наук и инженерии Пола Г. Аллена. Они представляют репликационное исследование предварительного обучения BERT, в котором тщательно измеряется влияние многих ключевых гиперпараметров и размера обучающих данных.

После того, как выяснилось, что BERT был значительно недооценен, их работа теперь предлагает улучшенную процедуру обучения моделей BERT. В частности, RoBERTa обучается с динамическим маскированием ПОЛНЫХ ПРЕДЛОЖЕНИЙ без потери NSP больших мини-пакетов и BPE большего байтового уровня.

Их модификации включают в себя;

  • Обучение модели более длительное, с большими партиями, с большим количеством данных
  • Удаление цели предсказания следующего предложения
  • Тренировка на более длинных последовательностях
  • Динамическое изменение шаблона маскировки, применяемого к обучающим данным

RoBERTa может соответствовать или превосходить производительность всех методов post-BERT и достигает самых современных результатов на GLUE, RACE и SQuAD.

Возможное использование и эффекты

Эта работа вновь подтверждает тот факт, что цель обучения модели скрытого языка BERT конкурентоспособна с другими недавно предложенными целями обучения, такими как моделирование нарушенного авторегрессионного языка.

Кроме того, в нем представлены важные варианты дизайна и стратегии обучения BERT, а также представлены альтернативы, которые позволяют повысить производительность последующих задач. Предлагаемые улучшения обучения показывают, что при правильном выборе дизайна предварительное обучение языковой модели с масками может конкурировать со всеми другими ранее опубликованными методами.

Код предварительной подготовки и тонкой настройки RoBERTa доступен здесь.

Подробнее: https://arxiv.org/abs/1907.11692v1

Спасибо за чтение. Прокомментируйте, поделитесь и не забудьте подписаться на нашу еженедельную рассылку, чтобы получать самые свежие и интересные исследования! Вы также можете подписаться на меня в Twitter и LinkedIn. Не забудьте 👏, если вам понравилась эта статья. Ваше здоровье!