Ответить на вопросы пользователей в корпоративной сфере по-прежнему непросто. Предприятия все чаще обращаются к автоматизированным помощникам в чате для взаимодействия с технической поддержкой и службой поддержки клиентов. Но эти инструменты могут успешно устранять неполадки только в тех вопросах, по которым они были обучены, что сегодня представляет растущую проблему для корпоративных методов ответа на вопросы (QA).

Чтобы решить эту проблему, IBM Research AI представляет новую таблицу лидеров под названием TechQA, в которой используются реальные вопросы пользователей, размещенные на IBM DeveloperWorks. Цель TechQA - способствовать исследованиям в области обеспечения качества на предприятии, где обучение на относительно небольшом наборе пар QA является более реалистичным условием.

TechQA - это первая таблица лидеров, которая рассматривает варианты использования корпоративного QA. IBM Research AI ожидает создания дополнительных сценариев использования из корпоративных доменов, чтобы стимулировать дополнительные исследования этой критически важной возможности.

Справочная информация о контроле качества

В зависимости от характеристик вопроса и соответствующего ответа можно выделить следующие типы задач обеспечения качества. Относительно короткие вопросы (менее дюжины слов) сильно отличаются от более длинных вопросов (от десяти до пятидесяти слов и более). Сегодня более длинные вопросы гораздо чаще встречаются в ситуациях поддержки предприятия, таких как ИТ, где типичный вопрос имеет решающее значение. средняя длина 35 слов.

Ответы также можно разделить на: i) короткие (фактоидные) непрерывные отрезки текста от одного до примерно пяти слов или около того, ii) ответы, которые длиннее, от шести слов до предложения, или iii) даже более длинные, например от одного до одного. несколько абзацев. В ИТ-поддержке средняя длина ответа составляет около 45 слов.

Существующие таблицы лидеров контроля качества

Примерами корпусов коротких вопросов / коротких ответов являются успешные SQuAD v1.1 (около 70 представлений) и v2.0 (около 60 представлений) рейтинги понимания прочитанного [i, ii], где отрывок из Википедии предоставляется вместе с таким вопросом как «Какая команда НФЛ представляла АФК на Суперкубке 50?» ¹. Системы улучшались с середины пятидесятых для F меры ответа до максимума середины девяностых за двухлетний период², что свидетельствует об относительно быстром прогрессе в решении задачи.

Однако наиболее эффективные системы на SQuAD v1.1 были очень слабыми и развалились, когда вопросы были немного изменены, чтобы на них не было ответа в предоставленном документе. При тестировании с помощью состязательных вопросов (когда примерно на 50% вопросов не было ответа в отрывке) эффективность показателя F падает более чем на 20 баллов.

SQuAD v2.0 был запущен в середине 2018 года с такими противоречивыми вопросами. Показатель F начинался примерно с 70% и быстро улучшился примерно до девяноста процентов примерно за год. Тем не менее, даже лучшие системы SQuAD v2.0 все еще были слабыми для реальных приложений из-за фундаментального недостатка конструкции данных. То есть вопросы были сгенерированы после просмотра отрывка, содержащего ответ «механических туркеров». Эта систематическая ошибка наблюдения приводит к частому совпадению слов в вопросе и контекста ответа.

Чтобы устранить эту предвзятость наблюдений, была создана новая таблица лидеров, названная «Естественные вопросы» [iii], путем сбора вопросов пользователей поисковой системы Google и последующего поиска ответов с помощью туркеров. Когда система SQuAD тестируется в таблице лидеров Natural Questions, показатель F резко падает до 6% (для коротких ответов - 2% для системы SQuAD v1.1), что свидетельствует о хрупкости систем, обученных SQuAD. .

Наивысшая оценка в таблице лидеров Natural Questions в настоящее время находится на уровне F около 60% для краткого ответа, полученного системой IBM Research AI GAAMA [iv] менее чем за шесть месяцев (июль 2019 г.) с тех пор, как начало в начале 2019 г. при F мера 52% для кратких ответов. IBM Research AI продолжает следить за этими системами, чтобы узнать, сколько времени потребуется им, чтобы приблизиться к производительности человека при выполнении этой задачи.

Еще один аспект, который следует учитывать: для обоснования (или поиска) ответа может потребоваться найти несколько сегментов из разных документов, чтобы определить правильный ответ. Это известно как так называемая задача с многоэтапными ответами на вопросы. HotpotQA [v] - это таблица лидеров, ориентированная на вопросы, требующие нескольких сегментов для определения ответа³. Менее чем за год показатель F улучшился с 52% до 71%. Однако HotpotQA страдает от проблемы смещения наблюдения, упомянутой в связи с SQuAD, когда вопросы создаются после прочтения документов, содержащих ответ.

IBM Research AI TechQA Corpus

Корпус TechQA выделяет две реальные проблемы в области автоматизированной поддержки клиентов. Во-первых, он содержит актуальные вопросы, заданные пользователями на техническом форуме, а не вопросы, созданные специально для соревнований или задач. Во-вторых, он имеет реальный размер - 600 пар для обучения, 310 для разработки и 490 пар вопросов / ответов для оценки, что отражает стоимость создания помеченных наборов данных в контексте корпоративного сценария использования.

Следовательно, TechQA призван стимулировать исследования в области адаптации предметной области, а не в качестве ресурса для создания систем обеспечения качества с нуля. Набор данных был получен путем сканирования форумов IBM Developer и IBM DeveloperWorks в поисках вопросов с принятыми ответами, которые появляются в опубликованном IBM Technote - техническом документе, в котором рассматривается конкретная техническая проблема.

В дополнение к парам вопрос-ответ, TechQA также предоставляет коллекцию из около 800 тысяч общедоступных технических заметок в качестве сопутствующего ресурса, позволяющего проводить исследования в области адаптации предметной области (например, предварительное обучение / точная настройка контекстно-зависимых векторных встраиваний).

Для TechQA, основанной на наиболее эффективной системе GAAMA от IBM Research AI для кратких ответов на естественные вопросы, показатель ответов F составляет 53%, чуть выше 50% для системы, которая всегда отвечает на No_answer. Система GAAMA была настроена на обучающем наборе TechQA (600 qa пар).

Более подробную информацию о задаче и таблице лидеров TechQA можно найти на сайте ibm.biz/Tech_QA.

Ссылки

[i] Пранав Раджпуркар, Цзянь Чжан, Константин Лопи-рев и Перси Лян. SQuAD: более 100 000 вопросов для машинного понимания текста. Труды конференции 2016 г. по эмпирическим методам обработки естественного языка, 2016 г.

[ii] Знайте, чего вы не знаете: вопросы без ответа для SQuAD. Пранав Раджпуркар, Робин Джиа и Перси Лян. Материалы 56-го ежегодного собрания Ассоциации компьютерной лингвистики, 2018.

[iii] Естественные вопросы: ориентир для исследования ответов на вопросы. Том Квятковски, Дженнимария Паломаки, Оливия Редфилд, Майкл Коллинз, Анкур Парих, Крис Альберти, Даниэль Эпштейн, Илья Полосухин, Мэтью Келси, Джейкоб Девлин, Кентон Ли, Кристина Н. Тутанова, Ллион Джонс, Минг-Вей Чанг, Роу Дай Чанг Якоб Ушкорейт, Куок Ле, Слав Петров. Труды Ассоциации компьютерной лингвистики, 2019.

[iv] Финансовый директор: A Framework for Building Production NLP Systems, Ришав Чакраварти, Сезар Пендус, Анджей Сакражда, Энтони Ферритто, Лин Пан, Майкл Гласс, Витторио Кастелли, Дж. Уильям Мердок, Раду Флориан, Салим Рукос, Avirup Sil. Материалы конференции 2019 года по эмпирическим методам обработки естественного языка (EMNLP), Demo Track, 2019.

[v] HotpotQA: набор данных для разнообразных, объяснимых ответов на многоскачковые вопросы, Чжилинь Ян, Пэн Ци, Сайчжэн Чжан, Йошуа Бенджио, Уильям Коэн, Руслан Салахутдинов, Кристофер Д. Мэннинг. Материалы конференции 2018 г. по эмпирическим методам обработки естественного языка, октябрь-ноябрь 2018 г.

[1] «Денвер Бронкос» - это извлеченный ответ.

[2] Обратите внимание, что синие точки на современной красной кривой представляют, когда соответствующий уровень техники был впервые достигнут.

[3] Эти вопросы с несколькими переходами были исключены при создании таблицы лидеров Natural Questions.

[4] По состоянию на 28 октября 2019 г. таблица лидеров на странице https://ai.google.com/research/NaturalQuestions.