Вопросы по теме 'word-frequency'
Как я могу узнать наиболее часто используемую комбинацию из 2 слов в блоке текста?
Как я могу узнать, какие два наиболее распространенных слова, которые я использовал сразу после друг друга, из блока текста? Другими словами, есть ли инструмент онлайн или офлайн (или код), где я могу копировать и вставлять текст, и он выводит мою...
638 просмотров
schedule
14.07.2023
Подсчет частоты слов на основе двух слов с использованием python
В Интернете есть много ресурсов, которые показывают, как подсчитывать количество слов для одного слова, например это и это и этот и другие... Но я не смог найти конкретного примера для частоты подсчета двух слов.
У меня есть файл csv, в...
1529 просмотров
schedule
19.11.2022
Как разобрать скобки для суммирования частот слов в python 3
У меня есть ввод со словами и их частотой для данной строки, однако я хотел бы иметь общий подсчет частоты слов. Я знаю, что есть много решений для вычисления частоты слов из файла в целом, но мой ввод содержит скобки вокруг каждой строки и круглые...
135 просмотров
schedule
26.08.2022
Подсчитать общую частоту слова в индексе SOLR
Если я ищу слово в индексе SOLR, я получаю количество документов, содержащих это слово, но если слово включается в документ несколько раз, общее количество по-прежнему равно 1 на документ.
Мне нужно, чтобы каждый возвращенный документ учитывался по...
4473 просмотров
schedule
17.05.2024
WordCount: насколько неэффективно решение Макилроя?
Короче говоря, в 1986 году интервьюер попросил Дональда Кнута написать программу, которая принимает на вход текст и число N и перечисляет N наиболее часто используемых слов, отсортированных по их частоте. Кнут создал 10-страничную программу на...
3574 просмотров
schedule
03.02.2023
Python nltk подсчитывает частоту слов и фраз
Я использую NLTK и пытаюсь подсчитать количество словесных фраз до определенной длины для конкретного документа, а также частоту каждой фразы. Я токенизирую строку, чтобы получить список данных.
from nltk.util import ngrams
from nltk.tokenize...
19178 просмотров
schedule
01.06.2022
как извлечь частоту слов для подмножества слов в R?
У меня есть кадр данных с примерно 10 000 слов в одном столбце и их соответствующими частотами в другом. У меня также есть вектор примерно из 600 слов. Каждое из 600 слов является словом во фрейме данных. Как мне найти частоты для вектора из 600...
155 просмотров
schedule
15.07.2022
Формирование биграмм слов в списке предложений и подсчет биграмм с использованием python
Мне нужно: 1. сформировать пары биграмм и сохранить их в списке 2. найти сумму идентификаторов, в которой есть 3 лучших биграммы с наибольшей частотой
У меня есть список предложений:
[['22574999', 'your message communication sent']
,...
2278 просмотров
schedule
18.05.2022
Подсчет частоты слов в нескольких файлах
Я пытаюсь написать код для подсчета частоты вхождения слов в документе, содержащем около 10000 файлов, но вместо получения общей частоты я получаю количество слов в последнем файле, поскольку он перезапишет предыдущую итерацию. Мой код до сих пор:...
625 просмотров
schedule
16.01.2023
Найдите часто встречающееся слово и его значение в периодичности термина в документе
Поэтому мне нужно найти наиболее частое слово и его значение из DTM.
library('tm')
library("SnowballC")
my.text.location "C:/Users/mrina/OneDrive/Documents/../"
apapers <- VCorpus(DirSource(my.text.location)) class(apapers)
apapers <-...
1009 просмотров
schedule
10.07.2022
Как я могу подсчитать частоту слов в учебной модели Word2Vec?
Мне нужно посчитать частоту каждого слова в обучающей модели word2vec . Я хочу, чтобы вывод выглядел так:
term count
apple 123004
country 4432180
runs 620102
...
Возможно ли это сделать? Как мне получить эти данные из word2vec?
812 просмотров
schedule
02.10.2023
Как рассчитать наиболее часто встречающиеся слова в столбце данных pandas по годам?
У меня есть кадр данных pandas, который содержит столбец «отзывы» и столбец «год». Я хотел бы просмотреть 100 наиболее часто встречающихся слов в колонке отзывов, но отфильтрованных по годам. Итак, я хочу знать 100 лучших за 2002, 2003, 2004 и так...
1004 просмотров
schedule
24.06.2022
Создание пар частотности слов с сохранением обоих слов и обеих частот
У меня есть список пар слов на исландском языке, которые пишутся одинаково, но означают разные вещи (например, leyti и leiti, kyrkja и kirkja). Список - это просто список из одного элемента, а не список кортежей (так что просто [leyti, leiti, kyrkja,...
36 просмотров
schedule
30.06.2022
Получение 100 лучших слов с самой высокой частотой документов в серии панд
Предположим, у меня есть серия панд, подобная этой:
0 "sun moon earth moon"
1 "sun saturn mercury saturn"
2 "sun earth mars"
3 "sun earth saturn sun saturn"
Я хочу получить 3 верхних слова с самой высокой частотой строки ("документ")...
58 просмотров
schedule
09.10.2022
Порядок убывания свойств объекта в Javascript
Я создаю программу на Javascript, которая принимает строку в качестве входных данных ( inputTextLower ), подсчитывает, сколько раз использовалось каждое слово (функция аналогична: http://www.writewords.org.uk/word_count)..asp ), а затем отображает...
40 просмотров
schedule
23.06.2022