Исследователи предлагают модификации предтренировочной процедуры BERT, которые улучшают выполнение конечных задач
Это резюме исследования - лишь одно из многих, которые еженедельно распространяются в информационном бюллетене для ученых в области ИИ. Чтобы начать получать еженедельную рассылку, зарегистрируйтесь здесь.
BERT считается значительным скачком в мире искусственного интеллекта, несомненно, принесшим прорыв в машинном обучении для нескольких задач обработки естественного языка (NLP). Хотя предварительное обучение языковой модели привело к значительному увеличению производительности, тщательное сравнение различных подходов является сложной задачей.
Обучение требует больших вычислительных ресурсов и в основном проводится на частных наборах данных разного размера. Может ли выбор гиперпараметров существенно повлиять на результаты обучения?
Надежно оптимизированный подход к предварительному обучению BERT (RoBERTa)
RoBERTa (надежно оптимизированный подход к предварительному обучению BERT) - это недавняя статья, представленная исследователями из Школы компьютерных наук и инженерии Пола Г. Аллена. Они представляют репликационное исследование предварительного обучения BERT, в котором тщательно измеряется влияние многих ключевых гиперпараметров и размера обучающих данных.
После того, как выяснилось, что BERT был значительно недооценен, их работа теперь предлагает улучшенную процедуру обучения моделей BERT. В частности, RoBERTa обучается с динамическим маскированием ПОЛНЫХ ПРЕДЛОЖЕНИЙ без потери NSP больших мини-пакетов и BPE большего байтового уровня.
Их модификации включают в себя;
- Обучение модели более длительное, с большими партиями, с большим количеством данных
- Удаление цели предсказания следующего предложения
- Тренировка на более длинных последовательностях
- Динамическое изменение шаблона маскировки, применяемого к обучающим данным
RoBERTa может соответствовать или превосходить производительность всех методов post-BERT и достигает самых современных результатов на GLUE, RACE и SQuAD.
Возможное использование и эффекты
Эта работа вновь подтверждает тот факт, что цель обучения модели скрытого языка BERT конкурентоспособна с другими недавно предложенными целями обучения, такими как моделирование нарушенного авторегрессионного языка.
Кроме того, в нем представлены важные варианты дизайна и стратегии обучения BERT, а также представлены альтернативы, которые позволяют повысить производительность последующих задач. Предлагаемые улучшения обучения показывают, что при правильном выборе дизайна предварительное обучение языковой модели с масками может конкурировать со всеми другими ранее опубликованными методами.
Код предварительной подготовки и тонкой настройки RoBERTa доступен здесь.
Подробнее: https://arxiv.org/abs/1907.11692v1
Спасибо за чтение. Прокомментируйте, поделитесь и не забудьте подписаться на нашу еженедельную рассылку, чтобы получать самые свежие и интересные исследования! Вы также можете подписаться на меня в Twitter и LinkedIn. Не забудьте 👏, если вам понравилась эта статья. Ваше здоровье!