Вопросы по теме 'word-frequency'

Как я могу узнать наиболее часто используемую комбинацию из 2 слов в блоке текста?
Как я могу узнать, какие два наиболее распространенных слова, которые я использовал сразу после друг друга, из блока текста? Другими словами, есть ли инструмент онлайн или офлайн (или код), где я могу копировать и вставлять текст, и он выводит мою...
638 просмотров
schedule 14.07.2023

Подсчет частоты слов на основе двух слов с использованием python
В Интернете есть много ресурсов, которые показывают, как подсчитывать количество слов для одного слова, например это и это и этот и другие... Но я не смог найти конкретного примера для частоты подсчета двух слов. У меня есть файл csv, в...
1529 просмотров

Как разобрать скобки для суммирования частот слов в python 3
У меня есть ввод со словами и их частотой для данной строки, однако я хотел бы иметь общий подсчет частоты слов. Я знаю, что есть много решений для вычисления частоты слов из файла в целом, но мой ввод содержит скобки вокруг каждой строки и круглые...
135 просмотров
schedule 26.08.2022

Подсчитать общую частоту слова в индексе SOLR
Если я ищу слово в индексе SOLR, я получаю количество документов, содержащих это слово, но если слово включается в документ несколько раз, общее количество по-прежнему равно 1 на документ. Мне нужно, чтобы каждый возвращенный документ учитывался по...
4473 просмотров
schedule 17.05.2024

WordCount: насколько неэффективно решение Макилроя?
Короче говоря, в 1986 году интервьюер попросил Дональда Кнута написать программу, которая принимает на вход текст и число N и перечисляет N наиболее часто используемых слов, отсортированных по их частоте. Кнут создал 10-страничную программу на...
3574 просмотров

Python nltk подсчитывает частоту слов и фраз
Я использую NLTK и пытаюсь подсчитать количество словесных фраз до определенной длины для конкретного документа, а также частоту каждой фразы. Я токенизирую строку, чтобы получить список данных. from nltk.util import ngrams from nltk.tokenize...
19178 просмотров
schedule 01.06.2022

как извлечь частоту слов для подмножества слов в R?
У меня есть кадр данных с примерно 10 000 слов в одном столбце и их соответствующими частотами в другом. У меня также есть вектор примерно из 600 слов. Каждое из 600 слов является словом во фрейме данных. Как мне найти частоты для вектора из 600...
155 просмотров
schedule 15.07.2022

Формирование биграмм слов в списке предложений и подсчет биграмм с использованием python
Мне нужно: 1. сформировать пары биграмм и сохранить их в списке 2. найти сумму идентификаторов, в которой есть 3 лучших биграммы с наибольшей частотой У меня есть список предложений: [['22574999', 'your message communication sent'] ,...
2278 просмотров

Подсчет частоты слов в нескольких файлах
Я пытаюсь написать код для подсчета частоты вхождения слов в документе, содержащем около 10000 файлов, но вместо получения общей частоты я получаю количество слов в последнем файле, поскольку он перезапишет предыдущую итерацию. Мой код до сих пор:...
625 просмотров

Найдите часто встречающееся слово и его значение в периодичности термина в документе
Поэтому мне нужно найти наиболее частое слово и его значение из DTM. library('tm') library("SnowballC") my.text.location "C:/Users/mrina/OneDrive/Documents/../" apapers <- VCorpus(DirSource(my.text.location)) class(apapers) apapers <-...
1009 просмотров
schedule 10.07.2022

Как я могу подсчитать частоту слов в учебной модели Word2Vec?
Мне нужно посчитать частоту каждого слова в обучающей модели word2vec . Я хочу, чтобы вывод выглядел так: term count apple 123004 country 4432180 runs 620102 ... Возможно ли это сделать? Как мне получить эти данные из word2vec?
812 просмотров

Как рассчитать наиболее часто встречающиеся слова в столбце данных pandas по годам?
У меня есть кадр данных pandas, который содержит столбец «отзывы» и столбец «год». Я хотел бы просмотреть 100 наиболее часто встречающихся слов в колонке отзывов, но отфильтрованных по годам. Итак, я хочу знать 100 лучших за 2002, 2003, 2004 и так...
1004 просмотров
schedule 24.06.2022

Создание пар частотности слов с сохранением обоих слов и обеих частот
У меня есть список пар слов на исландском языке, которые пишутся одинаково, но означают разные вещи (например, leyti и leiti, kyrkja и kirkja). Список - это просто список из одного элемента, а не список кортежей (так что просто [leyti, leiti, kyrkja,...
36 просмотров
schedule 30.06.2022

Получение 100 лучших слов с самой высокой частотой документов в серии панд
Предположим, у меня есть серия панд, подобная этой: 0 "sun moon earth moon" 1 "sun saturn mercury saturn" 2 "sun earth mars" 3 "sun earth saturn sun saturn" Я хочу получить 3 верхних слова с самой высокой частотой строки ("документ")...
58 просмотров
schedule 09.10.2022

Порядок убывания свойств объекта в Javascript
Я создаю программу на Javascript, которая принимает строку в качестве входных данных ( inputTextLower ), подсчитывает, сколько раз использовалось каждое слово (функция аналогична: http://www.writewords.org.uk/word_count)..asp ), а затем отображает...
40 просмотров
schedule 23.06.2022