Я хочу разработать приложение для Android, которое обобщает введенный пользователем текст (может быть новостной статьей)

Я искал экстрактивные и абстрактные методы обобщения. Я хотел бы сделать выводное обобщение из-за многих недостатков абстрактного обобщения. Я хочу иметь возможность суммировать вывод, используя метод обучения с учителем. алгоритм TextRank, но это метод обучения без учителя. Я хочу иметь возможность подводить итоги, используя метод обучения с учителем. Является ли это возможным? Могу ли я запустить TextRank для набора данных, содержащего 15000 данных (например)?

Коды, приведенные ниже, не следует принимать во внимание. Неуместные коды для обмена вопросами.

word_embeddings = {}
f = open('/content/drive/MyDrive/MetinAnalizi/glove.6B.100d.txt', encoding='utf-8')
for line in f:
    values = line.split()
    word = values[0]
    coefs = np.asarray(values[1:], dtype='float32')
    word_embeddings[word] = coefs
f.close()
sim_mat = np.zeros([len(sentences), len(sentences)])
from sklearn.metrics.pairwise import cosine_similarity
for i in range(len(sentences)):
  for j in range(len(sentences)):
    if i != j:
      sim_mat[i][j] = cosine_similarity(sentence_vectors[i].reshape(1,100), sentence_vectors[j].reshape(1,100))[0,0]

person Seda Yılmaz    schedule 22.04.2021    source источник
comment
Я могу не понять вопроса. Это касается средств запуска TextRank или поиска альтернативных подходов, основанных на контролируемых методах обучения? Существуют библиотеки Python, реализующие TextRank, который обеспечивает функции извлечения суммирования, например, derwen.ai/docs /ptr/sample/#extractive-summarization   -  person Paco    schedule 23.04.2021
comment
Собственно, я хотел сказать так: я буду разрабатывать мобильное приложение, которое может обобщать текст. Например, это будет приложение, которое может обобщать новостные статьи. Для этого было бы разумнее создать модель с помощью алгоритма TextRank или методов обучения с учителем? Насколько мне известно, алгоритм TextRank представляет собой метод обучения без учителя и используется для извлечения сводных данных. Можно ли сделать выводное обобщение с использованием моделей искусственных нейронных сетей (обучение с учителем)? Или эти модели используются только для абстрактного обобщения? @Пако   -  person Seda Yılmaz    schedule 23.04.2021


Ответы (1)


Существует множество методов обобщения текста, а использование глубокого обучения в НЛП (также известного как языковые модели, преобразователи и т. д.) с конца 2017 года привело ко многим достижениям.

Некоторые из компромиссов здесь зависят от качества и стоимости. Например, использование извлекающего суммирования с TextRank относительно дешевле и не требует обученной модели. OTOH, использование подходов абстрактного суммирования с моделями глубокого обучения, как правило, будет намного дороже, хотя и даст лучшие результаты.

С точки зрения PyTextRank у нас реализованы разные варианты алгоритма, которые производят разные виды экстрактивного суммирования – в зависимости от предполагаемого варианта использования. В сводках новостных статей может быть предпочтительнее использовать PositionRank, а в сводках исследовательских статей — Biased TextRank. Это связано с типами фраз, которые, вероятно, будут подчеркнуты, в зависимости от типичного стиля и структуры письма, встречающихся в этих областях.

Мой совет: поэкспериментируйте и посмотрите, что лучше всего соответствует вашим потребностям? Если у вас есть много статей для обобщения и вы хотите сохранить небольшой бюджет, то TextRank может подойти. Если вам нужно улучшить внешний вид текста в сводках, возможно, необходимо абстрактное обобщение.

person Paco    schedule 23.04.2021
comment
Ваш ответ был для меня очень показательным. Как вы сказали, методом проб и ошибок я могу найти лучший результат, используя методы TextRank и Deep Learning. Большое спасибо. @Пако - person Seda Yılmaz; 24.04.2021