Новое исследование Google Brain и Нью-Йоркского университета утверждает, что текущие методы оценки для задач понимания естественного языка (NLU) не работают, и предлагает рекомендации, разработанные для получения лучших тестов NLU.

Современные исследования NLU, как правило, сосредоточены на улучшении результатов на тестовых наборах данных, которые включают примерно независимое и идентично распределенное (IID) обучение, оценку и тестирование. Однако исследователи говорят, что такое исследование NLU, основанное на эталонных тестах, стало проблематичным, поскольку «ненадежные и предвзятые системы так высоко оцениваются по стандартным эталонным тестам, что у исследователей, которые разрабатывают более совершенные системы, мало места для демонстрации своих улучшений».

Недавняя тенденция, направленная на решение этой проблемы, заключается в отказе от тестов IID в пользу построенных на состязательной основе наборов тестов вне распределения. Однако этот метод не соответствует высшей цели тестов: помощь в улучшении моделей. Вместо этого он фокусируется на увеличении количества примеров наборов данных, в которых текущие модели не работают - подход, по мнению исследователей, не является ни необходимым, ни достаточным для создания полезного эталона.

В статье Что нужно сделать, чтобы исправить эталонный анализ в понимании естественного языка? команда Google и NYU намеревается восстановить здоровую экосистему оценки NLU, определив четыре критерия, которым, по ее мнению, должны соответствовать эталонные тесты.

Модели NLU достигли впечатляющих результатов за последние годы. Рейтинг лидеров по всем девяти задачам в популярном тесте GLUE (общая оценка понимания языка) приблизился или превзошел человеческие результаты, в то время как производительность модели в таблице лидеров понимания прочитанного на английском языке SQuAD 2 давно превзошла человеческие аннотаторы.

Однако проливать холодную воду на эти захватывающие результаты - неудобная реальность, поскольку даже самые современные модели часто терпят неудачу в простых тестовых примерах. Хотя истинные верхние границы производительности не могут быть надежно измерены, сверхчеловеческие характеристики моделей предполагают, что в этой области осталось не так много места. Более того, наличие социально значимых предубеждений в топ-моделях также затрудняет их развертывание во многих приложениях, и пока нет эффективных решений для предотвращения таких пагубных предубеждений.

Принимая во внимание недостатки этих тестов NLU, исследователи выдвигают четыре критерия, которые, по их мнению, могут облегчить создание машин, демонстрирующих всестороннее и надежное понимание повседневного текста на естественном языке в конкретных, хорошо поставленных задачах, в разных языковых вариантах и ​​тематических областях.

Первый критерий - это валидность, которая утверждает, что если тестируемая система превосходит другую в некоторой тестовой задаче, этот результат должен надежно гарантировать, что тестируемая система действительно лучше справляется с этой задачей. Команда определяет минимальные требования для эталонного теста для достижения этого требования:

  1. Набор оценочных данных должен отражать полный спектр языковых вариаций, включая слова и конструкции более высокого уровня, которые используются в соответствующей области, контексте и языковом разнообразии.
  2. Набор оценочных данных должен иметь правдоподобные средства, с помощью которых он проверяет все поведение, связанное с языком, которое, как мы ожидаем, модель будет демонстрировать в контексте задачи.
  3. Набор оценочных данных должен быть в достаточной степени свободным от артефактов аннотаций, чтобы система не могла достичь уровня производительности, близкого к человеческому, никакими средствами, кроме демонстрации требуемого поведения, связанного с языком.

Второй критерий - надежная аннотация, что означает, что метки, используемые в тестовых примерах, должны быть правильными. Здесь команда перечисляет три случая отказа, которых следует избегать:

  1. Примеры, которые неправильно помечены по неосторожности.
  2. Примеры, на которых нет четкой правильной метки из-за нечетких или неполных инструкций по задаче.
  3. Примеры, у которых нет четкой правильной метки под соответствующей метрикой из-за законных разногласий в интерпретации среди аннотаторов.

Третий критерий - статистическая мощность, то есть наборы оценочных данных должны быть достаточно большими и достаточно разборчивыми, чтобы гарантировать убедительность обнаруженных качественно значимых различий в производительности между разными моделями. Этот критерий вводит компромисс: если эталонные наборы данных одновременно надежны и сложны для моделей, тогда будет достаточно умеренного размера набора данных. Но если эталонные наборы данных слишком просты, то для достижения адекватной статистической мощности потребуются гораздо более крупные наборы оценок.

Последний критерий - сдерживание предвзятых моделей, т.е. удовлетворительный эталонный тест должен отдавать предпочтение моделям с меньшим количеством социально значимых предубеждений. Поскольку текущие тесты производительности в основном построены на естественном или краудсорсинговом тексте, многие из них не проходят этот тест. Команда отмечает, что адекватно перечислить социальные атрибуты, по которым мы, возможно, захотим оценить предвзятость, сложно, особенно в различных культурных контекстах, и что отношение к таким чувствительным вопросам, как раса, пол, сексуальная ориентация, инвалидность и т. Д., Постоянно меняется. Таким образом, соответствие этим критериям является сложной задачей, и проблемы в этой области могут по-прежнему вызывать беспокойство в исследовательских сообществах и общественности.

Команда также отслеживает некоторые возможные направления исследований, которые могут привести к улучшениям по каждому критерию. К ним относятся использование экспертов в наборах данных краудсорсинга для уменьшения артефактов аннотаций, обработка примеров с неоднозначной маркировкой так же, как и с примерами с неправильной маркировкой и т. Д. Исследователи надеются, что их работа и такие усилия помогут построить более здоровую экосистему эталонных тестов NLU.

Статья Что нужно сделать, чтобы исправить эталонный анализ в понимании естественного языка? находится на arXiv.

Автор: Геката Хе | Редактор: Майкл Саразен

Мы знаем, что вы не хотите пропустить какие-либо новости или научные открытия. Подпишитесь на нашу популярную рассылку Synced Global AI Weekly, чтобы получать еженедельные обновления AI.