Публикации по теме quanteda

Вопросы по теме 'quanteda'

Пакет R tm: Как сравнить текст со списком положительных эталонных слов и вернуть количество вхождений положительных слов

Каков наилучший подход к использованию библиотеки tm для сравнения текста со списком положительных эталонных слов и возврата количества вхождений положительных слов. Я хочу иметь возможность возвращать сумму положительных слов в справочном тексте....

865 просмотров

r quanteda tm

10.12.2022

Как использовать словарь в формате LIWC с пакетом R Quanteda?

Поскольку программное обеспечение и словари LIWC являются собственностью компании, я был рад видеть, что они хорошо сочетаются с все еще находящимся в разработке, но превосходным пакетом R Quanteda. Документация для пакета R Quanteda демонстрирует...

5665 просмотров

r quanteda

28.04.2023

Вычисление сходства косинусов на большом корпусе в R с использованием Quanteda

Я пытаюсь работать с очень большим массивом из примерно 85 000 твитов, которые я пытаюсь сравнить с диалогами из телевизионных рекламных роликов. Однако из-за размера моего корпуса я не могу обработать меру косинусного сходства без получения...

1345 просмотров

r nlp bigdata quanteda

27.09.2023

Использование словаря для создания биграммы в Quanta

Я пытаюсь удалить опечатки при анализе текста данных. Поэтому я использую словарную функцию пакета quanteda. Он отлично работает с Unigrams. Но это дает неожиданный результат для биграмм. Не знаю, как обрабатывать опечатки, чтобы они не попали в...

1933 просмотров

r quanteda

15.11.2023

Ошибка при использовании модели NB в textmodel() пакета Quanteda

Я пытаюсь подогнать модель под dfm, созданную с помощью Quanteda. Я получаю следующую ошибку. Любые идеи?? tModel <- textmodel(udfm1,model = "NB", smooth=1) Error in textmodel(udfm1, model = "NB", smooth = 1) : model NB not implemented....

264 просмотров

r text-mining cross-validation quanteda

11.07.2023

Реализация N-грамм в моем корпусе, ошибка Quanteda

Я пытаюсь реализовать Quanteda в своем корпусе в R, но получаю: Error in data.frame(texts = x, row.names = names(x), check.rows = TRUE, : duplicate row.names: character(0) У меня нет большого опыта в этом. Вот загрузка набора данных:...

168 просмотров

r text analytics n-gram quanteda

03.01.2023

Интеллектуальный анализ текста R, как сегментировать документ на фразы, а не термины

При интеллектуальном анализе текста с использованием R после повторной обработки текстовых данных нам необходимо создать матрицу терминов документа для дальнейшего изучения. Но, как и в китайском, в английском также есть определенные фазы, такие как...

1027 просмотров

r text-mining n-gram quanteda term-document-matrix

25.09.2022

Quanteda - применить функцию к DFM над переменными документа

Я использую пакет quanteda от R и последние версии как для R, так и для пакета. У меня есть пакет документов, который исчисляется миллионами. Предположим, у меня есть DFM, сгенерированный из кванта с каждым документом с документом даты. За один...

337 просмотров

r quanteda

23.06.2023

R: разреженное матричное умножение с пакетом data.table и Quanteda?

Я пытаюсь создать матричное умножение с разреженной матрицей и с пакетом под названием Quanteda, используя пакет data.table, связанный с этим потоком здесь . Так require(quanteda) mytext <- c("Let the big dogs hunt", "No holds barred", "My...

424 просмотров

r data.table matrix sparse-matrix quanteda

19.11.2022

Вычисляйте значение хи-квадрат между нграммами и документами с помощью Quanteda

Я использую пакет Quanteda R для извлечения нграмм (здесь 1грамм и 2грамм) из текста Data_clean $ Review, но я ищу способ с помощью R вычислить хи-квадрат между документом и извлеченными нграммами: Вот код R, который я сделал, чтобы очистить текст...

399 просмотров

r text-mining quanteda

30.04.2022

Как заменить токены (слова) на версии слов с корнем из моей собственной таблицы?

У меня есть такие данные (упрощенные): library(quanteda) образец данных myText <- c("ala ma kotka", "kasia ma pieska") myDF <- data.frame(myText) myDF$myText <- as.character(myDF$myText) токенизация tokens <-...

307 просмотров

r nlp text-mining quanteda stemming

09.07.2023

Как создать квантовый корпус из data.frame с несколькими столбцами для текста?

скажем, у меня есть следующее: x10 = data.frame(id = c(1,2,3),vars =c('top','down','top'), text1=c('this is text','so is this','and this is too.'), text2=c('we have more text here','and here too','and look at this, more text.')) Я...

1953 просмотров

r quanteda

18.04.2023

tidytext, quanteda и tm возвращают разные оценки tf-idf

Я пытаюсь работать с взвешенным корпусом tf-idf (где я ожидаю, что tf будет пропорцией по документу, а не простым подсчетом). Я ожидаю, что все классические библиотеки интеллектуального анализа текста будут возвращать одни и те же значения, но я...

1846 просмотров

r text-mining quanteda tidytext tm

27.06.2023

как читать текстовые файлы в quanteda, сохраняя каждую строку как документ

У меня есть тексты, хранящиеся в нескольких файлах. В файлах каждая строка представляет собой документ (текст сообщения в блоге, текст твита и т. Д.). Если я читаю с использованием пакета readtext способом по умолчанию, показанным на документ /...

372 просмотров

r nlp quanteda

19.05.2023

R: LIME возвращает ошибку для разных номеров функций, когда это не так.

Я создаю текстовый классификатор твитов Клинтона и Трампа (данные можно найти на Kaggle ). Я занимаюсь EDA и моделированием с помощью пакета quanteda : library(dplyr) library(stringr) library(quanteda) library(lime) #data prep tweet_csv...

600 просмотров

r text-classification lime quanteda

09.10.2022

Сохраняйте в корпусе только предложения, содержащие определенные ключевые слова (на R)

Имею корпус с текстовыми документами. Из этих текстовых документов мне не нужны все предложения, я хочу сохранить только определенные предложения, содержащие определенные ключевые слова. С этого момента я буду проводить измерения сходства и т. Д....

1195 просмотров

r text-mining corpus quanteda text-analysis

01.05.2022

Quanteda: как получить ngram и их частоту, учитывая n-1 слова / типы-предшественники

Для предсказания следующего слова с использованием ngrams мне нужно было бы найти все ngram (и их частоты) с учетом n-1 слов-предшественников. В dfm Я не видел никакого способа сделать это, поэтому начал реализовывать его вручную на...

508 просмотров

quanteda dfm

17.10.2022

Quanteda: создавайте нграммы и скипграммы из токенов в R

Я просматривал пакет quanteda в R и не мог полностью понять, как работают tokens_skipgrams. Ниже приведен пример из руководства к этому пакету , в котором я не совсем уверен. понял это хорошо: tokens_skipgrams(toks, n = 3, skip = 0:2,...

334 просмотров

r n-gram quanteda

18.04.2023

Стебель с квантами

Я использую следующую команду, чтобы сделать стемминг с помощью quanteda myDfm <- dfm(tokens_remove(tokens(df2, remove_punct = TRUE, stem = TRUE, remove_numbers = TRUE, remove_symbols = TRUE), stopwords(source = "smart")),...

476 просмотров

r quanteda

19.04.2023

Удалять документы из корпуса в Quanteda, если выполняются два условия

corpus_subset указывает документы, которые следует сохранить, но как насчет определения документов, которые следует удалить? Предположим, например, что я хочу отбросить документы, в которых встречается термин "терорризм", только если этот термин...

65 просмотров

r quanteda

25.07.2022