Вопросы по теме 'corpus'

Как пометить текстовые файлы с помощью hunpos в nltk?
Может ли кто-нибудь помочь мне с синтаксисом для hunpos, помечающего корпус в nltk? Что мне импортировать для модуля hunpos.HunPosTagger ? Как пометить корпус HunPosTag? См. код ниже. import nltk from nltk.corpus import...
1658 просмотров
schedule 26.01.2023

корпус с именованной сущностью
Я ищу именованный объект с тегами для домена новостей на английском языке в тексте и речи (расшифровано) за один и тот же период времени. Если у кого-то есть какая-либо информация о корпусе, пожалуйста, пришлите мне ссылку. Спасибо, Хадака.
335 просмотров
schedule 02.02.2023

Как создать облако слов из корпуса в Python?
Из Создание подмножества слов из корпуса в R , отвечающий может легко преобразовать term-document matrix в облако слов. Есть ли аналогичная функция из библиотек Python, которая принимает либо текстовый файл необработанного слова, либо NLTK...
99276 просмотров
schedule 25.05.2022

корпус с выбранными файлами в каталоге
Я хочу прочитать один файл как один документ в корпусе, но не нашел никакого решения, я пробовал с >fdat <- readLines(fname) > reuters=suppressWarnings(Corpus(VectorSource(fdat),readerControl = list(language = "en"))) > reuters A...
828 просмотров
schedule 10.08.2022

преобразовать корпус в data.frame в R
Я использую пакет tm для применения основы, и мне нужно преобразовать полученные данные в фрейм данных. Решение для этого можно найти здесь R tm package vcorpus: ошибка при преобразовании корпуса в кадр данных , но в моем случае у меня есть...
6690 просмотров
schedule 17.05.2023

Классификация по нескольким меткам, включающая диапазон чисел в качестве меток
У меня проблема с классификацией, когда мои метки - это рейтинги от 0 до 100 с шагом 1 (например, 1, 2, 3, 4,). У меня есть набор данных, в котором каждая строка имеет имя, текстовый корпус и рейтинг (0–100). Из текстового корпуса я пытаюсь...
867 просмотров

Использование моего собственного корпуса вместо корпуса movie_reviews для классификации в NLTK
Я использую следующий код и получаю его из Классификация с использованием корпуса обзоров фильмов в NLTK /Питон import string from itertools import chain from nltk.corpus import movie_reviews as mr from nltk.corpus import stopwords from...
4730 просмотров
schedule 27.01.2023

Почему такая плохая производительность у Моисея, использующего Europarl?
Я начал играть с Моисеем и попытался сделать то, что, как мне кажется, будет довольно стандартной базовой системой. В основном я выполнял шаги, описанные на веб-сайте , но вместо использования news-commentary Для обучения я использовал Europarl...
574 просмотров
schedule 09.07.2023

Как сделать несколько корпусов в R
Это данные обзора автомобиля, которые содержат более 40 000 строк, а каждый отзыв содержит более 500 символов. Это пример данных: https://drive.google.com/open?id=1ZRwzYH5McZIP2NLKxncmFaQ0mX1Pe0GShTMu57Tac_E | brand | review |...
83 просмотров
schedule 28.02.2024

Невозможно преобразовать корпус в фрейм данных в R
Я просмотрел другие похожие вопросы, которые были размещены здесь (например, this ), но проблема не устранена. У меня есть dataframe текстовых данных, которые мне нужно остановить. Итак, я конвертирую его в корпус, формирую его, затем завершаю...
16426 просмотров
schedule 14.09.2022

Встраивание слов в корпус отзывов пользователей/клиентов
Большинство общедоступных вложений, которые я знаю, выполняются в новостных статьях, в которых используется другой язык/слова, чем тот, который используется в обзорах пользователей/клиентов. Хотя такие вложения можно использовать в задачах NLP,...
457 просмотров
schedule 25.05.2023

Регулярное выражение и замена только выбранных результатов
Я хочу знать, есть ли какой-либо инструмент, который выполняет поиск регулярных выражений по огромному тексту (xml, с тегами или html) и заменяет только те случаи, которые выбраны из показанных (должен иметь параметры «выбрать/отменить выбор/выбрать...
306 просмотров
schedule 14.01.2024

текст обратно в объект R в пакете tm
Я новичок в пакете tm и буду благодарен за помощь. У меня есть куча сообщений, из которых я извлек ненужные символы и стоп-слова, что я сделал, используя различные функции пакета tm (см. ниже). В конце у меня остается 201 документ, содержащий...
339 просмотров
schedule 16.12.2022

Импорт внешнего корпуса BLLIP в стиле treebank с использованием NLTK
Я загрузил корпус BLLIP и хочу импортировать его в NLTK. Один из способов, который я нашел для этого, описан в ответе на вопрос Как читать корпус проанализированных предложений с помощью NLTK в python? . В этом ответе они делают это для одного...
218 просмотров
schedule 18.12.2022

Удаление строк с определенным словом в Корпусе
У меня есть корпус с несколькими текстами (новостными статьями), извлеченными из Интернета. Некоторые тексты содержат описание фотографии, использованной в статье. Я хочу удалить это. Я нашел существующую строку по этой теме, но она мне не...
188 просмотров
schedule 02.05.2023

От вектора символов обратно к VCorpus
У меня есть VCorpus, который извлекается следующим образом: corp <- VCorpus(DirSource("//Filepath")) Затем я хотел удалить определенные строки из моих файлов в Корпусе, которые содержали определенное слово. Для этого я преобразовал свой...
295 просмотров
schedule 13.04.2023

Как получить список всех слов с корнем вместе с его исходной формой после создания основы документа в R
Я пытаюсь получить список всех стеблей слов вместе с их исходной формой. вот пример library(tm) text <- c("Very Impressed with the shipping time, it arrived a few days earlier than expected", "it was very helpful","It was a wonderful...
754 просмотров
schedule 04.11.2022

Развертывание корпуса NLTK Chatterbot Heroku
У меня проблема с моим первым чат-ботом Telegram, созданным с помощью библиотеки Chatterbot. Мой проект состоит из: Procfile Требования (текстовый файл) телеграмтокен (текстовый файл) время выполнения (текстовый файл) nltk (текстовый...
438 просмотров
schedule 05.10.2022

Загрузка корпуса Twitter
Я работаю над системой интеллектуального анализа данных, и одним из требований является возможность выполнения анализа без использования API. Есть ли способ загрузить базу данных Twitter (или, по крайней мере, большую ее часть) и работать с ней...
315 просмотров
schedule 01.03.2023

Как создать корпус хэштегов (интеллектуальный анализ текста)
Я пытаюсь проанализировать данные твиттера, извлекая все хэштеги. Я хочу поместить все хэштеги в корпус и сопоставить этот корпус со списком слов. У вас есть идеи, как я могу справиться с этой проблемой? Вот скрин моих данных Вот код,...
327 просмотров
schedule 23.05.2024