Слишком долго, не прочитал: AI для обобщения текста и генерации TLDR

Институт Аллена для исследователей искусственного интеллекта разработал модель искусственного интеллекта, которая производит однострочные резюме научных статей.

Написано Gowtham R и Sundeep Teki 28 декабря 2020 г.

TL; DR

TLDR (или TL; DR) - это распространенное в Интернете сокращение от Слишком долго; Не читал ". Вероятно, он зародился на комедийном форуме «Something Awful примерно в 2002 году (источник), а затем стал более популярным на онлайн-форумах, таких как Reddit. Он часто используется в социальных сетях, где автор или комментаторы резюмируют длинные сообщения и предоставляют краткое изложение TLDR из одной или двух строк в качестве любезности для других читателей. TLDR помогают читателям понять суть информации и позволяют быстро принимать обоснованные решения о том, стоит ли тратить время на чтение сообщения целиком.

С помощью обработки естественного языка (NLP) и систем автоматического реферирования текста создание TLDR можно автоматизировать. Автоматическое резюмирование текста - сложная задача создания более короткого резюме длинного документа при сохранении его сути. Он имеет широкое практическое применение во многих областях, таких как юридический анализ договоров, поиск (обобщение информации об использовании на веб-сайтах, обобщение статей в Википедии, ориентированное на объекты), системы ответов на вопросы, средства массовой информации (создание заголовков новостей, обобщение статей в информационных бюллетенях), маркетинг (создание копия, слоганы) и др. Автоматически сгенерированные текстовые сводки помогают сократить время чтения, являются непредвзятыми по сравнению с рефератами, написанными людьми, а также могут быть полезны для множества личных повседневных приложений, таких как суммирование по электронной почте, создание TLDR для публикации в социальных сетях, таких как Twitter, и т. Д. .

Автоматическое реферирование - сложная задача, поскольку модель ИИ должна понимать предметно-ориентированный язык исходного текста (научная статья, новостная статья, юридический документ), определять характерные особенности исходного текста (научная статья - постановка проблемы, новые статьи ) и составить связное резюме, соответствующее сути статьи. Чем короче резюме, тем больше абстрагирования над исходным текстом необходимо.

Исследователи из Института искусственного интеллекта Аллена [1] недавно разработали новую модель искусственного интеллекта, которая способна генерировать сводки научных статей TLDR из одного предложения (справочные). Исследователи также предоставляют связанный набор данных и предлагают подход к многозадачному обучению для точной настройки предварительно обученных языковых моделей для создания TLDR. TLDR намного короче, чем бумажные аннотации, и не учитывают несущественную подоплеку и отражают важные аспекты статьи.

Типы резюмирования текста - экстрактивное и абстрактное резюмирование

Модели автоматического реферирования текста можно разделить на экстрактивные и абстрактные. Извлекающий составитель суммирования берет важные предложения из исходного текста документа дословно и объединяет их вместе для создания резюме. Вместо прямого копирования и вставки ключевых предложений абстрактные модели создают абстрактное, похожее на человека резюме, которое включает перефразированные слова и предложения, которых нет в исходном документе. На рисунке 3 показан пример экстрактивного и абстрактного резюме.

Хотя экстрактивное реферирование было самым популярным подходом на протяжении многих лет, недавний прогресс в обработке естественного языка (NLP) [2,3] позволил появиться более абстрактным моделям реферирования [4,5,6].

Набор данных

Для обучения модели исследователи создают набор данных SciTLDR, который содержит 5411 пар статей и TLDR. Чтобы собрать TLDR для разных статей, исследователи используют Openreview, веб-сайт, который содержит написанные авторами резюме своих статей вместе с рецензируемыми резюме. Они собирают как TLDR-auth (резюме статьи с точки зрения автора), так и TLDR-PR (резюме статьи с точки зрения рецензентов). Поскольку TLDR-PR обычно длиннее, они наняли экспертов в предметной области, чтобы они переписали эти резюме в 15–25 слов.

По сравнению с набором сводных данных других научных документов, SciTLDR предоставляет несколько золотых сводок (одно написано авторами статьи, а другое получено от рецензентов). Это важно для проведения углубленного анализа и тщательной оценки, поскольку содержимое TLDR может иметь множество вариаций. Набор данных SciTLDR также имеет гораздо более высокий коэффициент сжатия (среднее количество слов в документе, деленное на среднее количество слов в сводке или скорость сжатия статьи) 238,1, следующая самая высокая - 36,5. Количество выборок данных 5411 также ограничено по сравнению с массивными наборами данных, такими как Pubmed [7] с 133000 сэмплов и Arxiv [7] с 215000 сэмплов.

Модель

Для обучения модели TLDR авторы используют BART [4], которая представляет собой современную модель реферирования текста. BART - это модель на основе преобразователя [2], предварительно обученная путем искажения текста произвольным шумом (удаление некоторых слов в тексте, изменение порядка предложений, замена слов шумом и т. Д.) И обучения модели для восстановления исходного текста.

Авторы настраивают модель BART на наборе данных SciTLDR, чтобы получить сводку из одного предложения с учетом аннотации статьи или AIC статьи (раздел «Аннотация + введение + заключение»). Чтобы справиться с ограниченным размером своих обучающих данных, авторы также используют многозадачный подход к обучению, заключающийся в создании заголовков статей с учетом их содержания в дополнение к задаче создания бумажных резюме (см. Рисунок 5). Авторы интуитивно понимают, что заголовки содержат важную информацию о статье, которая может улучшить процесс обучения для создания резюме. «Поскольку заголовки часто содержат ключевую информацию о статье, мы предполагаем, что обучение модели для создания заголовков позволит ей научиться находить в статье важную информацию, которая также будет полезна для создания TLDR. Кроме того, у всех статей есть заголовки, и поэтому у нас есть множество пар статей и заголовков для обучения »[1]

Выводы

Автоматическое резюмирование текста - интересная и захватывающая исследовательская проблема с широким спектром отраслевых приложений, таких как основные моменты новостей, реферирование сущностей для поисковых систем, юридический анализ договоров, системы ответов на вопросы и многое другое. Недавние разработки в области НЛП [2,3,4] также способствовали прогрессу в человекоподобном абстрактном обобщении. Недавняя работа также с большим успехом протестировала включение обратной связи от людей для обучения и улучшения систем реферирования [8]. Дальнейшая работа может включать в себя разработку персонализированных сводок, основанных на интересах пользователей, а не общего, и расширение автоматических сумматоров для работы с языками, отличными от английского, суммирование документов на разных языках и многое другое.

Ссылки

[1] Качола, Изабель и др. «TL; DR: экстремальное обобщение научных документов». Препринт arXiv arXiv: 2004.15011 (2020).

[2] Васвани, Ашиш и др. «Внимание - это все, что вам нужно». (2017) Достижения в области нейронных систем обработки информации.

[3] Девлин, Джейкоб и др. «Берт: Предварительная подготовка глубоких двунаправленных преобразователей для понимания языка». (2018) препринт arXiv arXiv: 1810.04805

[4] Льюис, Майк и др. «Барт: Удаление шума от последовательности к последовательности, предварительное обучение для генерации, перевода и понимания естественного языка». Препринт arXiv arXiv: 1910.13461 (2019).

[5] Чжан, Цзинцин и др. «Пегас: предварительное обучение с извлеченными предложениями с пробелами для абстрактного обобщения». Международная конференция по машинному обучению. PMLR, 2020.

[6] Ян Ю. и др. «Prophetnet: Предсказание будущего n-грамма для предварительного обучения от последовательности к последовательности». Препринт arXiv arXiv: 2001.04063 (2020).

[7] Коэн, Арман и др. «Модель внимания с учетом дискурса для абстрактного резюмирования длинных документов». Препринт arXiv arXiv: 1804.05685 (2018).

[8] Стиеннон, Нисан и др. «Учимся резюмировать с помощью отзывов людей». Достижения в системах обработки нейронной информации 33 (2020 г.).