Вопросы по теме 'quanteda'

Пакет R tm: Как сравнить текст со списком положительных эталонных слов и вернуть количество вхождений положительных слов
Каков наилучший подход к использованию библиотеки tm для сравнения текста со списком положительных эталонных слов и возврата количества вхождений положительных слов. Я хочу иметь возможность возвращать сумму положительных слов в справочном тексте....
865 просмотров
schedule 10.12.2022

Как использовать словарь в формате LIWC с пакетом R Quanteda?
Поскольку программное обеспечение и словари LIWC являются собственностью компании, я был рад видеть, что они хорошо сочетаются с все еще находящимся в разработке, но превосходным пакетом R Quanteda. Документация для пакета R Quanteda демонстрирует...
5665 просмотров
schedule 28.04.2023

Вычисление сходства косинусов на большом корпусе в R с использованием Quanteda
Я пытаюсь работать с очень большим массивом из примерно 85 000 твитов, которые я пытаюсь сравнить с диалогами из телевизионных рекламных роликов. Однако из-за размера моего корпуса я не могу обработать меру косинусного сходства без получения...
1345 просмотров
schedule 27.09.2023

Использование словаря для создания биграммы в Quanta
Я пытаюсь удалить опечатки при анализе текста данных. Поэтому я использую словарную функцию пакета quanteda. Он отлично работает с Unigrams. Но это дает неожиданный результат для биграмм. Не знаю, как обрабатывать опечатки, чтобы они не попали в...
1933 просмотров
schedule 15.11.2023

Ошибка при использовании модели NB в textmodel() пакета Quanteda
Я пытаюсь подогнать модель под dfm, созданную с помощью Quanteda. Я получаю следующую ошибку. Любые идеи?? tModel <- textmodel(udfm1,model = "NB", smooth=1) Error in textmodel(udfm1, model = "NB", smooth = 1) : model NB not implemented....
264 просмотров
schedule 11.07.2023

Реализация N-грамм в моем корпусе, ошибка Quanteda
Я пытаюсь реализовать Quanteda в своем корпусе в R, но получаю: Error in data.frame(texts = x, row.names = names(x), check.rows = TRUE, : duplicate row.names: character(0) У меня нет большого опыта в этом. Вот загрузка набора данных:...
168 просмотров
schedule 03.01.2023

Интеллектуальный анализ текста R, как сегментировать документ на фразы, а не термины
При интеллектуальном анализе текста с использованием R после повторной обработки текстовых данных нам необходимо создать матрицу терминов документа для дальнейшего изучения. Но, как и в китайском, в английском также есть определенные фазы, такие как...
1027 просмотров

Quanteda - применить функцию к DFM над переменными документа
Я использую пакет quanteda от R и последние версии как для R, так и для пакета. У меня есть пакет документов, который исчисляется миллионами. Предположим, у меня есть DFM, сгенерированный из кванта с каждым документом с документом даты. За один...
337 просмотров
schedule 23.06.2023

R: разреженное матричное умножение с пакетом data.table и Quanteda?
Я пытаюсь создать матричное умножение с разреженной матрицей и с пакетом под названием Quanteda, используя пакет data.table, связанный с этим потоком здесь . Так require(quanteda) mytext <- c("Let the big dogs hunt", "No holds barred", "My...
424 просмотров
schedule 19.11.2022

Вычисляйте значение хи-квадрат между нграммами и документами с помощью Quanteda
Я использую пакет Quanteda R для извлечения нграмм (здесь 1грамм и 2грамм) из текста Data_clean $ Review, но я ищу способ с помощью R вычислить хи-квадрат между документом и извлеченными нграммами: Вот код R, который я сделал, чтобы очистить текст...
399 просмотров
schedule 30.04.2022

Как заменить токены (слова) на версии слов с корнем из моей собственной таблицы?
У меня есть такие данные (упрощенные): library(quanteda) образец данных myText <- c("ala ma kotka", "kasia ma pieska") myDF <- data.frame(myText) myDF$myText <- as.character(myDF$myText) токенизация tokens <-...
307 просмотров
schedule 09.07.2023

Как создать квантовый корпус из data.frame с несколькими столбцами для текста?
скажем, у меня есть следующее: x10 = data.frame(id = c(1,2,3),vars =c('top','down','top'), text1=c('this is text','so is this','and this is too.'), text2=c('we have more text here','and here too','and look at this, more text.')) Я...
1953 просмотров
schedule 18.04.2023

tidytext, quanteda и tm возвращают разные оценки tf-idf
Я пытаюсь работать с взвешенным корпусом tf-idf (где я ожидаю, что tf будет пропорцией по документу, а не простым подсчетом). Я ожидаю, что все классические библиотеки интеллектуального анализа текста будут возвращать одни и те же значения, но я...
1846 просмотров
schedule 27.06.2023

как читать текстовые файлы в quanteda, сохраняя каждую строку как документ
У меня есть тексты, хранящиеся в нескольких файлах. В файлах каждая строка представляет собой документ (текст сообщения в блоге, текст твита и т. Д.). Если я читаю с использованием пакета readtext способом по умолчанию, показанным на документ /...
372 просмотров
schedule 19.05.2023

R: LIME возвращает ошибку для разных номеров функций, когда это не так.
Я создаю текстовый классификатор твитов Клинтона и Трампа (данные можно найти на Kaggle ). Я занимаюсь EDA и моделированием с помощью пакета quanteda : library(dplyr) library(stringr) library(quanteda) library(lime) #data prep tweet_csv...
600 просмотров
schedule 09.10.2022

Сохраняйте в корпусе только предложения, содержащие определенные ключевые слова (на R)
Имею корпус с текстовыми документами. Из этих текстовых документов мне не нужны все предложения, я хочу сохранить только определенные предложения, содержащие определенные ключевые слова. С этого момента я буду проводить измерения сходства и т. Д....
1195 просмотров
schedule 01.05.2022

Quanteda: как получить ngram и их частоту, учитывая n-1 слова / типы-предшественники
Для предсказания следующего слова с использованием ngrams мне нужно было бы найти все ngram (и их частоты) с учетом n-1 слов-предшественников. В dfm Я не видел никакого способа сделать это, поэтому начал реализовывать его вручную на...
508 просмотров
schedule 17.10.2022

Quanteda: создавайте нграммы и скипграммы из токенов в R
Я просматривал пакет quanteda в R и не мог полностью понять, как работают tokens_skipgrams. Ниже приведен пример из руководства к этому пакету , в котором я не совсем уверен. понял это хорошо: tokens_skipgrams(toks, n = 3, skip = 0:2,...
334 просмотров
schedule 18.04.2023

Стебель с квантами
Я использую следующую команду, чтобы сделать стемминг с помощью quanteda myDfm <- dfm(tokens_remove(tokens(df2, remove_punct = TRUE, stem = TRUE, remove_numbers = TRUE, remove_symbols = TRUE), stopwords(source = "smart")),...
476 просмотров
schedule 19.04.2023

Удалять документы из корпуса в Quanteda, если выполняются два условия
corpus_subset указывает документы, которые следует сохранить, но как насчет определения документов, которые следует удалить? Предположим, например, что я хочу отбросить документы, в которых встречается термин "терорризм", только если этот термин...
65 просмотров
schedule 25.07.2022