Подборка статей по обеспечению качества, привлекших наше внимание

Области лингвистики и НЛП могут многое предложить друг другу, и COLING 2020 продемонстрировал лучшее из этих двух областей, когда они перекрестно опыляются. Включение отраслевого направления само по себе является признаком реальной ценности НЛП, основанного на лингвистике. deepset принял участие в конференции, чтобы представить наши последние модели немецкого языка, а также чтобы быть в курсе последних исследований и тенденций в области НЛП. Вот наш краткий список самых заметных работ:

На пути к созданию надежной отраслевой системы ответов на вопросы

TL; DR: максимизация производительности системы экстрактивного контроля качества на основе BERT

Бумага: здесь

Команда QA в IBM представила свою модель GAAMA, которая направлена ​​на то, чтобы выжать максимальную производительность из моделей BERT в наборе данных Natural Questions (если вы хотите узнать больше о том, чем это отличается от SQuAD, ознакомьтесь с нашей статьей другая среда »). Одно из нововведений заключается в том, что они добавляют слой внимание над вниманием, который работает с контекстными встраиваниями слов и вычисляет внимание между запросами и документами и между документами и запросами. Они также усиливают разнообразие в головах внимания, добавляя свои косинусные расстояния к потерям. Они также дополняют обучающий набор данных, включая другие наборы данных QA (например, SQuAD, NewsQA и TriviaQA), создавая искажения аннотированных данных человека с помощью правил, созданных вручную, и генерируя синтетические образцы на невидимых отрывках. На момент публикации их модели превзошли предыдущие работы в отрасли как по задачам с короткими, так и с длинными ответами. С тех пор другие работы вернули верхнюю строчку таблицы лидеров, но последняя версия их модели GAAMA по-прежнему занимает 2-е место в кратком ответе. Одним из примечательных выводов из их презентации было то, что добавление данных SQuAD улучшает производительность модели с короткими ответами, в то время как синтетические данные имеют более положительное влияние на задачу с длинными ответами. Их различные настройки внимания дают около + 1% на производительность длинных ответов.

Улучшение систем ответов на разговорные вопросы после развертывания с помощью обучения, взвешенного с учетом отзывов

TL; DR: как наилучшим образом использовать отзывы пользователей для улучшения действующей системы контроля качества

Бумага: здесь

Следующая статья представляла для нас особый интерес с самого начала, учитывая, что мы недавно создали механизм обратной связи с пользователями в Haystack, который позволяет пользователям утверждать, верны ли прогнозы модели или нет. Во многих случаях этот процесс позволяет более дешево и быстро создавать метки для конкретной предметной области, которые можно использовать для непрерывного обучения вашей модели. Авторы этой статьи моделируют настройки в диалоговом ответе на вопрос (CQA), где может быть не так много данных аннотации с золотой этикеткой. Чтобы исправить это, они используют отзывы пользователей, которые не являются полной аннотацией, а скорее двоичными правильными или неправильными метками. Они проводят эксперименты по переобучению модели, а также формально определяют, как взвешивать отзывы пользователей, показывая, что их метод дает значительные улучшения при выполнении CQA в другом домене. Неудивительно, что с их теоретической строгостью и прагматическим подходом к улучшению ответов на вопросы в разговоре они были номинированы на лучшую работу на COLING!

Исследование эффективности, точности и структуры документа для выбора предложения ответа

TL; DR: новый и очень легкий конвейер генеративного контроля качества, основанный на модели выбора предложения ответа.

Бумага: здесь

В то время как экстрактивный и генеративный стали доминирующими стилями ответа на вопрос в последние годы, в этой статье показано, как методы выбора ответа на вопрос еще многое могут предложить в быстро меняющейся области ответа на вопрос. Опираясь на статические вложения слов и CNN, они создают Cosinet, который вычисляет релевантность данного предложения запросу. Они также могут моделировать контекст вокруг заданного предложения-кандидата, используя компонент BiRNN. Когда они объединены, им удается достичь 75,62 MAP на WikiQA, превзойдя все другие столь же экономичные модели. Хотя BERT превосходит эту модель, достигая 81,32 MAP, Cosinet можно обучить всего за 7,5 с на GTX1080 Ti по сравнению с 17 минутами 50 с для BERT. После того, как ответное предложение выбрано, запрос и предложение также проходят через генератор, чтобы создать фразу ответа, которая более точно соответствует запросу. В конце концов, полную модель можно рассматривать как очень новый подход к созданию генеративной системы обеспечения качества, которая конкурирует с такими системами, как RAG. Поскольку система очень быстрая и требует очень мало времени для индексации, было бы очень интересно посмотреть, можно ли ее масштабировать до настройки открытого домена.

Система глубокого обучения для измерения цифровой стратегии компаний на основе звонков о прибылях и убытках

TL; DR: использование NLP для построения векторов, отражающих цифровую стратегию компании.

Бумага: здесь

Я включил эту работу в список в качестве бонуса, потому что она демонстрирует очень простой, но эффективный подход к кластеризации компаний. Авторы начинают с выбора набора аспектов, относящихся к цифровой стратегии, таких как «робототехника» или «операции», которые являются чем-то вроде тем, которые могут появиться в документе. Они обучают токен, классифицирующий BERT, для определения отрезков текста, которые иллюстрируют такие аспекты. Архитектура такой модели очень похожа на модель NER, только модель используется для маркировки аспектов вместо именованных классов сущностей. Используя общедоступные документы о прибылях и убытках, они извлекают эти аспекты и объединяют их вхождения для каждой компании. По сути, они создают вектор, который характеризует компанию, где каждое измерение соответствует отдельному аспекту. Для визуализации они уменьшают размерность этого вектора с помощью TSNE и группируют компании в 2D-пространстве, в результате чего получается кластерная карта компаний, где похожие компании появляются рядом друг с другом.

Заключение

COLING - это не только одна из самых популярных конференций по компьютерной лингвистике, она также предлагает действительно интересные темы для разработчиков НЛП, более ориентированных на отрасль. В связи с бурным ростом исследований, проводимых в этой области, COLING является жизненно важным местом, где исследователи НЛП могут представить свои результаты, независимо от того, руководствуются ли они теоретически или прагматически. Этот год не стал исключением, и мы глубоко признательны всем ведущим и организаторам, благодаря которым конференция этого года прошла в самых сложных обстоятельствах.