Поскольку большие языковые модели продолжают достигать самых современных (SOTA) результатов в задачах ответов на вопросы (QA), исследователи поднимают несколько собственных вопросов относительно надежности этих моделей. Команда IBM недавно провела всесторонний анализ английского QA, который показал, что модели SOTA могут быть разочаровывающе ненадежными, когда представлены данные, сгенерированные злоумышленниками.

Предыдущие исследования стратегии атак были сосредоточены на производительности одноязычного QA, в то время как атаки на многоязычный QA оставались относительно неизученными. Исследователи IBM нацелились на последнее, применив четыре новые многоязычные стратегии состязательной атаки против семи языков в условиях нулевого выстрела. Столкнувшись с такими атаками, средняя производительность больших многоязычных предварительно обученных языковых моделей, таких как MBERT, падает как минимум на 20,3% и до 85,6%.

Исследователи резюмируют свой основной вклад в выявление недостатков в многоязычных системах контроля качества и предоставление информации, которая не очевидна в одноязычной системе, а именно:

  1. MBERT более подвержен атакам по сравнению с BERT.
  2. MBERT отдает приоритет поиску ответа на определенных языках, вызывая успешные атаки, даже если враждебное утверждение находится на другом языке, чем вопрос и контекст.
  3. MBERT отдает предпочтение языку вопроса над языком контекста.
  4. Дополнение системы машинно-переведенными данными помогает создать более надежную систему.

Одна из наиболее популярных существующих стратегий атаки QA — добавление состязательных предложений, чтобы отвлечь системы понимания прочитанного. Новое исследование основано на этом подходе путем преобразования вопроса Q в утверждение S. Цель состоит в том, чтобы создать состязательное S, которое семантически похоже на Q, но может быть идентифицировано читателем как неправильное.

Предлагаемый процесс преобразования Q в S включает пять этапов. Сначала исследователи используют универсальный синтаксический анализ зависимостей (UDP) и распознавание именованных сущностей (NER) для предварительной обработки вводимых вопросов на английском языке. Они выполняют поиск в глубину при синтаксическом анализе и помечают все токены частей речи (POS) для определения шаблонов слов с помощью шаблонов «что nn», «что vb», «кто vb», «сколько», и «что vb vb», на которые приходится более 40 процентов тренировочного набора. На основе этих шаблонов на втором этапе команда преобразует вопросы в утверждения, содержащие помеченный вопрос.

Имея вопрос Q и утверждение S, на третьем этапе исследователи применяют четыре различные стратегии атаки для создания различных типов враждебных утверждений, предназначенных для того, чтобы сбить с толку систему контроля качества. Четыре стратегии: случайный вопрос со случайным ответом (RARQ), исходный вопрос со случайным ответом (RAOQ), случайный вопрос без ответа (NARQ) и исходный вопрос без ответа (NAOQ). На четвертом этапе эти сгенерированные враждебные утверждения переводятся на другие языки, а на пятом этапе эти переведенные враждебные утверждения вставляются в контекст.

Команда провела эксперименты по многоязычному контролю качества с предварительно обученной языковой моделью MBERT и наборами данных SQuAD v1.1, MT-SQuAD и MLQA.

Команда атаковала MBERTQA, многоязычную систему, обученную только английскому языку, и MT-MBERTQA, многоязычную систему, обученную на данных шести языков. Результаты показывают, что обе системы пострадали от всех четырех атак. Самой сильной атакой был RAOQ, который привел к снижению среднего балла F1 на 30 из-за враждебных заявлений на китайском языке.

Исследование демонстрирует эффективность предложенных стратегий атак, которые, по словам команды, можно использовать для создания более надежных систем контроля качества.

Документ Надежны ли многоязычные модели BERT? Практический пример состязательных атак для многоязычных ответов на вопросы есть на arXiv.

Автор: Геката Хе | Редактор: Майкл Саразен

Мы знаем, что вы не хотите пропустить ни одной новости или научного открытия. Подпишитесь на нашу популярную рассылку Synced Global AI Weekly, чтобы получать еженедельные обновления AI.