Резюмирование текста стало важным и своевременным инструментом для помощи и интерпретации текстовой информации в современном быстрорастущем информационном веке. Людям очень сложно вручную суммировать большие текстовые документы. В Интернете имеется множество текстовых материалов.

В связи с тем, что push-уведомления и дайджесты статей набирают все большую популярность, задача создания интеллектуальных и точных резюме для длинных текстов становится отраслевой проблемой, которая с каждым днем ​​становится только нарастающей.

В 2014 году насчитывалось 2,4 миллиарда пользователей Интернета. Это число выросло до 3,4 миллиарда к 2016 году, а в 2017 году было добавлено 300 миллионов пользователей Интернета, что в сумме составило 3,8 миллиарда пользователей Интернета в 2017 году (по состоянию на апрель 2017 года). Это 42%. рост числа людей, пользующихся Интернетом, всего за три года! С ростом использования растет количество блогов, веб-страниц и других подобных текстовых материалов. Данные неструктурированы, и лучшее, что мы можем сделать для навигации по ним, - это использовать поиск и просматривать результаты.

Мы не можем создать резюме всего текста вручную; существует большая потребность в автоматических методах.

Автоматическое суммирование текста

Автоматическое резюмирование текста становится важным способом найти релевантную информацию именно в большом тексте за короткое время и с небольшими усилиями.

Автоматическое суммирование текста работает, сначала вычисляя частоту слов для всего текстового документа. Затем сохраняются и сортируются 100 наиболее употребительных слов. Затем каждое предложение оценивается в зависимости от того, сколько часто встречающихся слов оно содержит, причем более часто встречающиеся слова имеют большую ценность. Наконец, затем берутся X первых предложений и сортируют по их положению в исходном тексте.

Сохраняя простоту и универсальность, алгоритм автоматического резюмирования текста может работать в различных ситуациях, с которыми могут столкнуться другие реализации, например, в документах, содержащих иностранные языки или уникальные словесные ассоциации, которых нет в стандартных корпусах английского языка.

Существует два основных подхода к резюмированию текста: извлекающий и абстрактивный. Первый извлекает слова и словосочетания из исходного текста для создания резюме. Последний изучает представление на внутреннем языке, чтобы создавать более похожие на людей резюме, перефразируя замысел исходного текста.

Экстрактивное обобщение

Методы экстрактивного реферирования работают путем выбора подмножества путем извлечения фраз или предложений из реальной статьи для формирования резюме.

LexRank и TexRank - хорошо известные извлекающие обобщения, оба они используют вариант алгоритма Google PageRank. LexRank - это подход на основе неконтролируемого графа, аналогичный TextRank. LexRank использует косинус, модифицированный IDF, в качестве меры сходства между двумя предложениями. Это сходство используется как вес ребра графа между двумя предложениями. LexRank также включает в себя интеллектуальный этап постобработки, который гарантирует, что главные предложения, выбранные для резюме, не слишком похожи друг на друга.

Алгоритм TextRank с некоторыми улучшениями, такими как использование лемматизации вместо стемминга, включение тегов Part-Of-Speech и Named Entity Resolution, извлечение ключевых фраз из статьи и извлечение сводных предложений на их основе. Помимо резюме статьи, TextRank также извлекает из статьи значимые ключевые фразы.

Абстрактное обобщение

Модели для абстрактного реферирования подпадают под более широкое глубокое обучение. Произошел определенный прорыв в реферировании текста с использованием глубокого обучения. Ниже приведены некоторые из наиболее заметных опубликованных результатов крупнейших компаний в области НЛП.

Neural Attention - Facebook AI Research, 3 сентября 2015 г.

Facebook следует подходу нейронных сетей. Подход к абстрактному резюмированию предложений, основанный на данных. Их метод использует модель, основанную на локальном внимании, которая генерирует каждое слово резюме, обусловленное входным предложением.

Последовательность - Google Brain, 4 августа 2016 г.

В августе 2016 года Google анонсировал модель от последовательности к последовательности, которая теперь используется Google для перевода производственных систем, хотя она и добилась огромных улучшений, ее влияние было ограниченным.

В прошлом году в 2017 они представили tf-seq-2-seq, фреймворк с открытым исходным кодом в TensorFlow. Легко экспериментировать и добиваться отличных результатов.

RNN от последовательности к последовательности и за их пределами - IBM Watson, 10 августа 2016 г.

Техника IBM использует последовательность для упорядочивания с вниманием и двунаправленной нейронной сетью, но они различаются функциями, используемыми ячейками (Google использует LSTM, IBM использует GRU), способом работы с токенами ‹unk›.

В моделях от последовательности к последовательности, которая отображает входную последовательность в целевую последовательность. Хотя модели последовательность-последовательность успешно применялись для решения других задач обработки естественного языка, таких как машинный перевод, для современных моделей абстрактного реферирования остается много возможностей для улучшения. Несмотря на то, что современные модели могут достигать высоких оценок ROUGE по сводкам для небольших входных данных, модели часто теряют способность суммировать ключевые моменты, когда входные данные становятся большими.

Drive Visual Data Analytics с его мощными техническими возможностями и опытом в предоставлении решений на основе искусственного интеллекта, текстовой аналитики и методов НЛП для обобщения более крупного текстового содержания.

Свяжитесь с нами, чтобы узнать больше о сдвиге парадигмы в сторону этого поколения решений на основе искусственного интеллекта и преимуществах, которые оно открывает.