Вопросы по теме 'corpus'
Как пометить текстовые файлы с помощью hunpos в nltk?
Может ли кто-нибудь помочь мне с синтаксисом для hunpos, помечающего корпус в nltk?
Что мне импортировать для модуля hunpos.HunPosTagger ?
Как пометить корпус HunPosTag? См. код ниже.
import nltk
from nltk.corpus import...
1658 просмотров
schedule
26.01.2023
корпус с именованной сущностью
Я ищу именованный объект с тегами для домена новостей на английском языке в тексте и речи (расшифровано) за один и тот же период времени. Если у кого-то есть какая-либо информация о корпусе, пожалуйста, пришлите мне ссылку.
Спасибо, Хадака.
335 просмотров
schedule
02.02.2023
Как создать облако слов из корпуса в Python?
Из Создание подмножества слов из корпуса в R , отвечающий может легко преобразовать term-document matrix в облако слов.
Есть ли аналогичная функция из библиотек Python, которая принимает либо текстовый файл необработанного слова, либо NLTK...
99276 просмотров
schedule
25.05.2022
корпус с выбранными файлами в каталоге
Я хочу прочитать один файл как один документ в корпусе, но не нашел никакого решения, я пробовал с
>fdat <- readLines(fname)
> reuters=suppressWarnings(Corpus(VectorSource(fdat),readerControl = list(language = "en")))
> reuters
A...
828 просмотров
schedule
10.08.2022
преобразовать корпус в data.frame в R
Я использую пакет tm для применения основы, и мне нужно преобразовать полученные данные в фрейм данных. Решение для этого можно найти здесь R tm package vcorpus: ошибка при преобразовании корпуса в кадр данных , но в моем случае у меня есть...
6690 просмотров
schedule
17.05.2023
Классификация по нескольким меткам, включающая диапазон чисел в качестве меток
У меня проблема с классификацией, когда мои метки - это рейтинги от 0 до 100 с шагом 1 (например, 1, 2, 3, 4,).
У меня есть набор данных, в котором каждая строка имеет имя, текстовый корпус и рейтинг (0–100).
Из текстового корпуса я пытаюсь...
867 просмотров
schedule
22.05.2023
Использование моего собственного корпуса вместо корпуса movie_reviews для классификации в NLTK
Я использую следующий код и получаю его из Классификация с использованием корпуса обзоров фильмов в NLTK /Питон
import string
from itertools import chain
from nltk.corpus import movie_reviews as mr
from nltk.corpus import stopwords
from...
4730 просмотров
schedule
27.01.2023
Почему такая плохая производительность у Моисея, использующего Europarl?
Я начал играть с Моисеем и попытался сделать то, что, как мне кажется, будет довольно стандартной базовой системой. В основном я выполнял шаги, описанные на веб-сайте , но вместо использования news-commentary Для обучения я использовал Europarl...
574 просмотров
schedule
09.07.2023
Как сделать несколько корпусов в R
Это данные обзора автомобиля, которые содержат более 40 000 строк, а каждый отзыв содержит более 500 символов. Это пример данных: https://drive.google.com/open?id=1ZRwzYH5McZIP2NLKxncmFaQ0mX1Pe0GShTMu57Tac_E
| brand | review |...
83 просмотров
schedule
28.02.2024
Невозможно преобразовать корпус в фрейм данных в R
Я просмотрел другие похожие вопросы, которые были размещены здесь (например, this ), но проблема не устранена.
У меня есть dataframe текстовых данных, которые мне нужно остановить. Итак, я конвертирую его в корпус, формирую его, затем завершаю...
16426 просмотров
schedule
14.09.2022
Встраивание слов в корпус отзывов пользователей/клиентов
Большинство общедоступных вложений, которые я знаю, выполняются в новостных статьях, в которых используется другой язык/слова, чем тот, который используется в обзорах пользователей/клиентов.
Хотя такие вложения можно использовать в задачах NLP,...
457 просмотров
schedule
25.05.2023
Регулярное выражение и замена только выбранных результатов
Я хочу знать, есть ли какой-либо инструмент, который выполняет поиск регулярных выражений по огромному тексту (xml, с тегами или html) и заменяет только те случаи, которые выбраны из показанных (должен иметь параметры «выбрать/отменить выбор/выбрать...
306 просмотров
schedule
14.01.2024
текст обратно в объект R в пакете tm
Я новичок в пакете tm и буду благодарен за помощь. У меня есть куча сообщений, из которых я извлек ненужные символы и стоп-слова, что я сделал, используя различные функции пакета tm (см. ниже). В конце у меня остается 201 документ, содержащий...
339 просмотров
schedule
16.12.2022
Импорт внешнего корпуса BLLIP в стиле treebank с использованием NLTK
Я загрузил корпус BLLIP и хочу импортировать его в NLTK. Один из способов, который я нашел для этого, описан в ответе на вопрос Как читать корпус проанализированных предложений с помощью NLTK в python? . В этом ответе они делают это для одного...
218 просмотров
schedule
18.12.2022
Удаление строк с определенным словом в Корпусе
У меня есть корпус с несколькими текстами (новостными статьями), извлеченными из Интернета.
Некоторые тексты содержат описание фотографии, использованной в статье. Я хочу удалить это.
Я нашел существующую строку по этой теме, но она мне не...
188 просмотров
schedule
02.05.2023
От вектора символов обратно к VCorpus
У меня есть VCorpus, который извлекается следующим образом:
corp <- VCorpus(DirSource("//Filepath"))
Затем я хотел удалить определенные строки из моих файлов в Корпусе, которые содержали определенное слово. Для этого я преобразовал свой...
295 просмотров
schedule
13.04.2023
Как получить список всех слов с корнем вместе с его исходной формой после создания основы документа в R
Я пытаюсь получить список всех стеблей слов вместе с их исходной формой.
вот пример
library(tm)
text <- c("Very Impressed with the shipping time, it arrived a few days earlier than expected", "it was very helpful","It was a wonderful...
754 просмотров
schedule
04.11.2022
Развертывание корпуса NLTK Chatterbot Heroku
У меня проблема с моим первым чат-ботом Telegram, созданным с помощью библиотеки Chatterbot.
Мой проект состоит из:
Procfile
Требования (текстовый файл)
телеграмтокен (текстовый файл)
время выполнения (текстовый файл)
nltk (текстовый...
438 просмотров
schedule
05.10.2022
Загрузка корпуса Twitter
Я работаю над системой интеллектуального анализа данных, и одним из требований является возможность выполнения анализа без использования API. Есть ли способ загрузить базу данных Twitter (или, по крайней мере, большую ее часть) и работать с ней...
315 просмотров
schedule
01.03.2023
Как создать корпус хэштегов (интеллектуальный анализ текста)
Я пытаюсь проанализировать данные твиттера, извлекая все хэштеги. Я хочу поместить все хэштеги в корпус и сопоставить этот корпус со списком слов. У вас есть идеи, как я могу справиться с этой проблемой? Вот скрин моих данных
Вот код,...
327 просмотров
schedule
23.05.2024