За последний год модели машинного обучения значительно улучшили результаты по многим задачам понимания языка в НЛП. ELMo, BERT, ALICE, модель, ранее известная как BigBird (теперь MT-DNN), и OpenAI GPT предложили удивительно эффективный рецепт, сочетающий предварительное обучение языкового моделирования на огромных наборах текстовых данных с простой многозадачностью и переносом. методы обучения, которые адаптируют полученную модель к последующим приложениям.

КЛЕЙ, выпущенный год назад, является эталоном и инструментарием для оценки подобных рецептов (подумайте, как Великое британское шоу выпечки встречается с Улицей Сезам). GLUE представляет собой набор из девяти (английских) задач на понимание языка - таких как текстовое следствие, анализ тональности и суждения о грамматичности - и предназначался для охвата достаточно большой части НЛП, чтобы единственный способ преуспеть это было создание инструментов, настолько общих, что они помогли бы с большинством новых проблем понимания языка, которые могли бы возникнуть.

Прогресс по КЛЕЮ

Лучшие модели на GLUE теперь очень близки к нашей оценке того, насколько хорошо люди справляются с этими задачами:

Производительность модели резко выросла с появлением GPT и BERT и неуклонно растет в сравнении с производительностью человека, поскольку исследователи продолжают разрабатывать лучшие алгоритмы для адаптации BERT к этим задачам. По трем задачам GLUE (QNLI, MRPC и QQP) лучшие модели уже превосходят человеческие базовые, хотя это вряд ли означает, что машины овладели английским языком. Например, задача WNLI включает определение того, было ли предложение вроде «Джон не поместил трофей в чемодан, потому что он был слишком большим». подразумевает предложение «Трофей был слишком большим». правда. Люди могут отлично решить эту задачу, в то время как машины еще не улучшились по сравнению с случайным угадыванием.

Понятно, что еще предстоит продвинуться в обучении машин пониманию естественного языка, но GLUE не будет подходящим эталоном для оценки в течение долгого времени.

Введите SuperGLUE

Как и GLUE, SuperGLUE является эталоном для оценки моделей НЛП общего назначения, основанных на оценке разнообразного набора задач понимания языка.

Чтобы открыть для себя новый набор сложных задач, мы разослали призыв к предложениям задач более широкому сообществу НЛП, которое с энтузиазмом откликнулось, предоставив нам список из примерно 30 различных задач НЛП. При выборе задач для SuperGLUE мы, очевидно, хотели задачи, связанные с пониманием языка, которые еще не решаются существующими методами, но легко решаются людьми. Чтобы проверить это, мы запустили базовые планы на основе BERT для многих задач-кандидатов и собрали данные для базовых показателей человека. Конечным результатом является набор из семи задач, которые, по нашему мнению, являются сложными для существующих моделей.

Мы сохранили две задачи GLUE, у которых все еще есть значительный запас: Распознавание текстового включения и вызов схемы Винограда. Кроме того, мы добавляем задачи, которые проверяют способность модели отвечать на вопросы, выполнять кореферентное разрешение и выполнять рассуждения на основе здравого смысла.

Если вам интересно узнать о SuperGLUE, загляните в нашу статью для предварительного просмотра! Полный тест, включая данные, оценочный сервер и программный инструментарий, включая наши базовые показатели, должен быть доступен примерно в начале мая. Если вы хотите быть в курсе о SuperGLUE, присоединяйтесь к нашей группе обсуждения.

Счастливого (супер) КЛЕЯ!

Команда SuperGLUE