Каковы детали модели Sequence-to-Sequence для суммирования текста?

Понятно, как обучать модель кодер-декодер трансляции: каждой исходной последовательности соответствует своя целевая последовательность (трансляция). Но в случае текстового реферата аннотация значительно короче статьи. Согласно Урваши Ханделвал, Обобщение нейронного текста , каждое исходное предложение имеет свою абстракцию (более короткую или более длинную). ). Но я с трудом верю, что существует такой набор данных, в котором каждое предложение имеет соответствующий реферат. Итак, если я прав, каковы возможные способы обучения солнечной модели? В противном случае есть ли бесплатные наборы данных для суммирования текста?


person ichernob    schedule 18.04.2017    source источник
comment
Вы читали газету, которую вы связали? Там упоминается набор данных антологии ACL.   -  person Aaron    schedule 19.04.2017
comment
@ Аарон, конечно, я прочитал это. Насколько я понимаю, там есть статьи с их тезисами. Я прав?   -  person ichernob    schedule 19.04.2017
comment
Да. Я думаю, что в своих экспериментах они используют только название статьи и аннотацию. Люди используют другие приемы для получения данных, например, используют короткую новостную статью и заголовок в качестве резюме.   -  person Aaron    schedule 19.04.2017
comment
@ Аарон, так это все о трюках?   -  person ichernob    schedule 19.04.2017


Ответы (2)


Вы правы в том, что существует очень мало больших наборов данных, созданных специально для обучения моделей суммирования текста. Люди склонны использовать другие существующие данные и находить способы превратить их в проблему обобщения. Вы можете прочитать другие текстовые документы, чтобы увидеть, что они делают.

person Aaron    schedule 19.04.2017

Исследования, как правило, используют такие наборы данных, как

Если вам нужно больше узнать о том, как эффективно использовать эти модели, изучите эту серию блогов. о том, как обучать модель суммирования текста с использованием новейших подходов, он также собирает несколько реализаций онлайн и реализует их в google colab, поэтому независимо от мощности вашего компьютера вы всегда можете бесплатно попробовать эти наборы данных в google colab.

person amr zaki    schedule 11.01.2020