Каковы детали модели Sequence-to-Sequence для суммирования текста?

Понятно, как обучать модель кодер-декодер трансляции: каждой исходной последовательности соответствует своя целевая последовательность (трансляция). Но в случае текстового реферата аннотация значительно короче статьи. Согласно Урваши Ханделвал, Обобщение нейронного текста , каждое исходное предложение имеет свою абстракцию (более короткую или более длинную). ). Но я с трудом верю, что существует такой набор данных, в котором каждое предложение имеет соответствующий реферат. Итак, если я прав, каковы возможные способы обучения солнечной модели? В противном случае есть ли бесплатные наборы данных для суммирования текста?

nlp dataset sequence-to-sequence

ichernob 18.04.2017 источник

comment

Вы читали газету, которую вы связали? Там упоминается набор данных антологии ACL. - Aaron 19.04.2017

comment

@ Аарон, конечно, я прочитал это. Насколько я понимаю, там есть статьи с их тезисами. Я прав? - ichernob 19.04.2017

comment

Да. Я думаю, что в своих экспериментах они используют только название статьи и аннотацию. Люди используют другие приемы для получения данных, например, используют короткую новостную статью и заголовок в качестве резюме. - Aaron 19.04.2017

comment

@ Аарон, так это все о трюках? - ichernob 19.04.2017

Ответы (2)

arrow_upward
0
arrow_downward

Вы правы в том, что существует очень мало больших наборов данных, созданных специально для обучения моделей суммирования текста. Люди склонны использовать другие существующие данные и находить способы превратить их в проблему обобщения. Вы можете прочитать другие текстовые документы, чтобы увидеть, что они делают.

Aaron 19.04.2017

arrow_upward
0
arrow_downward

Исследования, как правило, используют такие наборы данных, как

обзоры продуктов, такие как набор данных для продуктов Amazon
новости с их заголовками в виде сводки, такой как набор данных CNN/Daily Mail и набор данных отдела новостей

Если вам нужно больше узнать о том, как эффективно использовать эти модели, изучите эту серию блогов. о том, как обучать модель суммирования текста с использованием новейших подходов, он также собирает несколько реализаций онлайн и реализует их в google colab, поэтому независимо от мощности вашего компьютера вы всегда можете бесплатно попробовать эти наборы данных в google colab.

amr zaki 11.01.2020

Каковы детали модели Sequence-to-Sequence для суммирования текста?

Ответы (2)

Вопросы по теме