Первые принципы реферирования текста

Резюме текста известно как метод сокращения длинных фрагментов текста. Намерение состоит в том, чтобы создать связное и четкое резюме, содержащее только основные моменты, изложенные в документе.

Существует так много реальных приложений для обобщения текста. Это может быть большим подспорьем для студента колледжа или исследователя в его исследовательской работе. Это также может помочь профессору определить основные идеи и аргументы любой исследовательской работы, документов или текстов для подготовки его лекции. Даже краткое содержание этой статьи можно сделать с помощью текстового реферата.

В основном есть два типа реферирования. Один из них - экстрактивное обобщение, а другой - абстрактное обобщение.

Экстрактивное реферирование

В этом типе резюмирования важные фразы или ключевые слова в документе извлекаются и объединяются, чтобы получить краткое резюме.

Основное преимущество - это простота и надежность, поскольку извлекаемый текст берется прямо из документа. Недостатком этого метода является то, что мы не сможем получить новый перефраз, который обеспечивает ясность в резюме.

Обобщение с помощью gensim

В Gensim есть сумматор, основанный на улучшенной версии алгоритма TextRank, разработанной Радой Михалча и др. Это алгоритм на основе графа, который использует ключевые слова в документе в качестве вершин. Вес ребер между ключевыми словами определяется на основе их одновременного появления в тексте. Алгоритм, аналогичный PageRank, используется для определения важности ключевых слов. Наконец, резюме извлекается путем ранжирования важных предложений, содержащих ключевые слова с высоким рейтингом.

Абстрактное обобщение

Этот тип резюмирования может производить итоговые итоги, содержащие слова или фразы, которых нет в исходном тексте, но сохраняющие первоначальное предназначение входного документа. Это может привести к появлению новых фраз и, следовательно, к естественным обобщениям.

При резюмировании текста, поскольку входные и выходные данные представляют собой последовательности текста, модель глубокого обучения, обычно используемая на практике, - это модель «последовательность-последовательность».

Архитектура кодировщика-декодера

Как следует из названия «кодер-декодер», эта архитектура состоит из кодировщика и декодирующего компонента. Функция кодировщика состоит в том, чтобы взять последовательность входного текста и преобразовать ее в плотное векторное представление, также известное как вектор мысли или вектор контекста. Вектор мысли, по сути, является внутренним представлением, которое фиксирует контекст и значение всего входного текста. Декодер берет плотное векторное представление исходного, полного текста и генерирует итоговую сводку, по одному слову за раз.

Кодировщик

Наиболее распространенный тип кодировщика использует двунаправленные RNN с блоками LSTM или GRU. В таких случаях входом в кодировщик является распределенное представление слов или вложений слов.

Декодер

Декодер - это еще одна двунаправленная сеть LSTM или GRU. Он берет векторное представление входного текста, выданного кодировщиком, и ранее сгенерированное итоговое слово и генерирует следующее итоговое слово.