Публикации по теме corpus

Вопросы по теме 'corpus'

Как пометить текстовые файлы с помощью hunpos в nltk?

Может ли кто-нибудь помочь мне с синтаксисом для hunpos, помечающего корпус в nltk? Что мне импортировать для модуля hunpos.HunPosTagger ? Как пометить корпус HunPosTag? См. код ниже. import nltk from nltk.corpus import...

1658 просмотров

26.01.2023

корпус с именованной сущностью

Я ищу именованный объект с тегами для домена новостей на английском языке в тексте и речи (расшифровано) за один и тот же период времени. Если у кого-то есть какая-либо информация о корпусе, пожалуйста, пришлите мне ссылку. Спасибо, Хадака.

335 просмотров

entity corpus

02.02.2023

Как создать облако слов из корпуса в Python?

Из Создание подмножества слов из корпуса в R , отвечающий может легко преобразовать term-document matrix в облако слов. Есть ли аналогичная функция из библиотек Python, которая принимает либо текстовый файл необработанного слова, либо NLTK...

99276 просмотров

python gensim nltk corpus word-cloud

25.05.2022

корпус с выбранными файлами в каталоге

Я хочу прочитать один файл как один документ в корпусе, но не нашел никакого решения, я пробовал с >fdat <- readLines(fname) > reuters=suppressWarnings(Corpus(VectorSource(fdat),readerControl = list(language = "en"))) > reuters A...

828 просмотров

r corpus tm

10.08.2022

преобразовать корпус в data.frame в R

Я использую пакет tm для применения основы, и мне нужно преобразовать полученные данные в фрейм данных. Решение для этого можно найти здесь R tm package vcorpus: ошибка при преобразовании корпуса в кадр данных , но в моем случае у меня есть...

6690 просмотров

r dataframe corpus tm

17.05.2023

Классификация по нескольким меткам, включающая диапазон чисел в качестве меток

У меня проблема с классификацией, когда мои метки - это рейтинги от 0 до 100 с шагом 1 (например, 1, 2, 3, 4,). У меня есть набор данных, в котором каждая строка имеет имя, текстовый корпус и рейтинг (0–100). Из текстового корпуса я пытаюсь...

867 просмотров

machine-learning classification multilabel-classification scikit-learn corpus

22.05.2023

Использование моего собственного корпуса вместо корпуса movie_reviews для классификации в NLTK

Я использую следующий код и получаю его из Классификация с использованием корпуса обзоров фильмов в NLTK /Питон import string from itertools import chain from nltk.corpus import movie_reviews as mr from nltk.corpus import stopwords from...

4730 просмотров

python-2.7 nlp classification nltk corpus

27.01.2023

Почему такая плохая производительность у Моисея, использующего Europarl?

Я начал играть с Моисеем и попытался сделать то, что, как мне кажется, будет довольно стандартной базовой системой. В основном я выполнял шаги, описанные на веб-сайте , но вместо использования news-commentary Для обучения я использовал Europarl...

574 просмотров

machine-translation corpus bleu moses

09.07.2023

Как сделать несколько корпусов в R

Это данные обзора автомобиля, которые содержат более 40 000 строк, а каждый отзыв содержит более 500 символов. Это пример данных: https://drive.google.com/open?id=1ZRwzYH5McZIP2NLKxncmFaQ0mX1Pe0GShTMu57Tac_E | brand | review |...

83 просмотров

r aggregate text-mining corpus

28.02.2024

Невозможно преобразовать корпус в фрейм данных в R

Я просмотрел другие похожие вопросы, которые были размещены здесь (например, this ), но проблема не устранена. У меня есть dataframe текстовых данных, которые мне нужно остановить. Итак, я конвертирую его в корпус, формирую его, затем завершаю...

16426 просмотров

r text-mining corpus tm

14.09.2022

Встраивание слов в корпус отзывов пользователей/клиентов

Большинство общедоступных вложений, которые я знаю, выполняются в новостных статьях, в которых используется другой язык/слова, чем тот, который используется в обзорах пользователей/клиентов. Хотя такие вложения можно использовать в задачах NLP,...

457 просмотров

nlp word2vec corpus

25.05.2023

Регулярное выражение и замена только выбранных результатов

Я хочу знать, есть ли какой-либо инструмент, который выполняет поиск регулярных выражений по огромному тексту (xml, с тегами или html) и заменяет только те случаи, которые выбраны из показанных (должен иметь параметры «выбрать/отменить выбор/выбрать...

306 просмотров

text regex editing corpus

14.01.2024

текст обратно в объект R в пакете tm

Я новичок в пакете tm и буду благодарен за помощь. У меня есть куча сообщений, из которых я извлек ненужные символы и стоп-слова, что я сделал, используя различные функции пакета tm (см. ниже). В конце у меня остается 201 документ, содержащий...

339 просмотров

r text-mining corpus tm

16.12.2022

Импорт внешнего корпуса BLLIP в стиле treebank с использованием NLTK

Я загрузил корпус BLLIP и хочу импортировать его в NLTK. Один из способов, который я нашел для этого, описан в ответе на вопрос Как читать корпус проанализированных предложений с помощью NLTK в python? . В этом ответе они делают это для одного...

218 просмотров

python parsing nlp nltk corpus

18.12.2022

Удаление строк с определенным словом в Корпусе

У меня есть корпус с несколькими текстами (новостными статьями), извлеченными из Интернета. Некоторые тексты содержат описание фотографии, использованной в статье. Я хочу удалить это. Я нашел существующую строку по этой теме, но она мне не...

188 просмотров

r corpus tm

02.05.2023

От вектора символов обратно к VCorpus

У меня есть VCorpus, который извлекается следующим образом: corp <- VCorpus(DirSource("//Filepath")) Затем я хотел удалить определенные строки из моих файлов в Корпусе, которые содержали определенное слово. Для этого я преобразовал свой...

295 просмотров

r corpus tm

13.04.2023

Как получить список всех слов с корнем вместе с его исходной формой после создания основы документа в R

Я пытаюсь получить список всех стеблей слов вместе с их исходной формой. вот пример library(tm) text <- c("Very Impressed with the shipping time, it arrived a few days earlier than expected", "it was very helpful","It was a wonderful...

754 просмотров

r text-mining corpus tm stemming

04.11.2022

Развертывание корпуса NLTK Chatterbot Heroku

У меня проблема с моим первым чат-ботом Telegram, созданным с помощью библиотеки Chatterbot. Мой проект состоит из: Procfile Требования (текстовый файл) телеграмтокен (текстовый файл) время выполнения (текстовый файл) nltk (текстовый...

438 просмотров

python nltk corpus

05.10.2022

Загрузка корпуса Twitter

Я работаю над системой интеллектуального анализа данных, и одним из требований является возможность выполнения анализа без использования API. Есть ли способ загрузить базу данных Twitter (или, по крайней мере, большую ее часть) и работать с ней...

315 просмотров

twitter analysis corpus mining

01.03.2023

Как создать корпус хэштегов (интеллектуальный анализ текста)

Я пытаюсь проанализировать данные твиттера, извлекая все хэштеги. Я хочу поместить все хэштеги в корпус и сопоставить этот корпус со списком слов. У вас есть идеи, как я могу справиться с этой проблемой? Вот скрин моих данных Вот код,...

327 просмотров

r text-mining corpus topic-modeling

23.05.2024