Публикации по теме n-gram

Вопросы по теме 'n-gram'

Автозаполнение через черепицу и компонент термвектора

Один из способов реализовать автозаполнение, подобное Google, — объединить черепицу и компонент термвектора в Solr 1.4. Сначала мы генерируем все распределения n-грамм с компонентом черепицы, а затем используем термвектор, чтобы получить прогноз,...

2050 просмотров

autocomplete solr n-gram

27.02.2023

Как я могу узнать наиболее часто используемую комбинацию из 2 слов в блоке текста?

Как я могу узнать, какие два наиболее распространенных слова, которые я использовал сразу после друг друга, из блока текста? Другими словами, есть ли инструмент онлайн или офлайн (или код), где я могу копировать и вставлять текст, и он выводит мою...

638 просмотров

php n-gram word-frequency

14.07.2023

Android и нечеткое сопоставление, n-граммы и расстояние Левенштейна

Я создаю приложение для Android, которое принимает ввод строки и возвращает ранжированный список книг, используя API Google. Я ищу способ сравнить строку с открытым концом, которую вводит пользователь, с первым элементом в списке, чтобы увидеть,...

4151 просмотров

android java fuzzy-search n-gram levenshtein-distance

18.04.2024

выполнить поиск в очень большом файле ARPA за очень короткое время в Java

У меня есть файл ARPA размером почти 1 ГБ. Я должен сделать поиск в нем менее чем за 1 минуту. Я много искал, но пока не нашел подходящего ответа. Я думаю, что мне не нужно читать весь файл. Мне просто нужно перейти к определенной строке в файле и...

486 просмотров

java language-model n-gram

03.04.2023

моделирование n-грамм с помощью хэш-карты Java

Мне нужно смоделировать набор n-грамм (последовательности n слов) и их контексты (слова, которые появляются рядом с n-граммой вместе с их частотой). Моя идея заключалась в следующем: public class Ngram { private String[] words; private...

4813 просмотров

java string hashmap n-gram

06.08.2023

Пакет для создания языковых моделей n-грамм со сглаживанием? (Альтернативы НЛТК)

Я хотел бы найти какой-то тип пакета или модуля (предпочтительно Python или Perl, но подойдут и другие), которые автоматически генерируют вероятности n-грамм из входного текста, а также могут автоматически применять один или несколько алгоритмов...

2448 просмотров

nlp nltk n-gram

16.01.2023

nGrams в apache mahout

Я запускаю алгоритм наивного байесовского классификатора через apache mahout. У нас есть возможность настроить размер грамма во время обучения и запуска экземпляра алгоритма. Изменение моего размера n-Gram с 1 на 2 резко меняет результирующую...

802 просмотров

bayesian n-gram mahout

31.12.2022

Вычисление N граммов с использованием Python

Мне нужно было вычислить униграммы, биграммы и триграммы для текстового файла, содержащего текст вроде: «Муковисцидоз поражает 30 000 детей и молодых людей только в США. Вдыхание тумана с соленой водой может уменьшить гной и инфекцию, заполняющую...

85646 просмотров

python nlp nltk n-gram

17.11.2022

Как получить массив всех ngrams в Perl Text::Ngrams

Как вы знаете, модуль Text::Ngrams в Perl может дать анализ Ngrams. Существует следующая функция для получения массива Ngrams и частот....

765 просмотров

n-gram perl

25.08.2022

Модель Ngram и недоумение в NLTK

Чтобы поставить мой вопрос в контекст, я хотел бы обучить и протестировать/сравнить несколько (нейронных) языковых моделей. Чтобы сосредоточиться на моделях, а не на подготовке данных, я решил использовать корпус Брауна из nltk и обучить модель...

12100 просмотров

python nltk n-gram

22.11.2022

N-грамм, который является наиболее частым среди всех слов

Я столкнулся со следующей проблемой на собеседовании по программированию: Задача 1: N-граммы N-грамма - это последовательность из N последовательных символов данного слова. У слова «пилот» есть три 3-грамма: «пил», «ило» и «лот». Для данного...

7806 просмотров

c algorithm n-gram

05.01.2023

Список `k` слов, начинающихся с фиксированного префикса, в порядке убывания их частоты

У меня есть список примерно из 10^5 английских слов и их начальная частота. Я хочу написать программу предложения завершения слов, которая будет возвращать список максимальных k слов, начиная с заданного префикса, отсортированных в порядке...

477 просмотров

sorting algorithm data-structures n-gram trie

06.04.2023

Отдавайте предпочтение точным совпадениям, а не nGram в elasticsearch

Я пытаюсь сопоставить поле как nGram и «точное» совпадение и сделать так, чтобы точные совпадения отображались первыми в результатах поиска. Это ответ на аналогичный вопрос , но я изо всех сил пытаюсь заставить его работать. Независимо от того,...

2726 просмотров

n-gram elasticsearch

26.02.2023

Оценка методов идентификации языка

Частью моей дипломной работы является оценка количества уже доступных методов определения языка, а затем, наконец, реализация одного из них. Для этого я выбрал следующие методы, Категоризация текста на основе N-грамм от Cavnar и Trenkle...

85 просмотров

machine-learning nlp algorithm n-gram evaluation

08.03.2023

Генерировать случайное предложение из грамматики или Ngrams?

Я пишу программу, которая должна выдавать случайное предложение сложности по моему выбору. В качестве конкретного примера я хотел бы помочь своему изучению языка, выплевывая правильные предложения грамматической структуры и используя слова, которые я...

1135 просмотров

python nltk sentence n-gram

21.06.2022

Более высокий балл за первое слово в ElasticSearch

Прямо сейчас мой поиск дает мне нежелательные результаты, когда я ищу, скажем, «яйцо». Я получаю следующее: _score: 2.7645843 _source: django_id: "18003" text: "Bagels, egg" content_auto: "Bagels, egg" django_ct: "web.fooddes"...

770 просмотров

search n-gram relevance elasticsearch

18.01.2023

Как хранить данные из Google Ngram API?

Мне нужно хранить данные, представленные на графиках, на сайте Google Ngram. Например, я хочу сохранить количество вхождений слова «это» в процентах с 1800 по 2008 год, как показано по следующей ссылке:...

1153 просмотров

text api nlp n-gram

02.11.2022

составить новое предложение с моделью n-грамм, используя nltk

Я сделал 2-х и 3-х граммовые модели из своего текстового файла. from nltk import * text = open('Alice in Wonderland.txt', 'r').read() table = string.maketrans('', '') text = text.translate(table, string.punctuation) tokens =...

952 просмотров

python nlp nltk auto-generate n-gram

03.11.2023

N-грамм с ArrayList

Я занимаюсь проектом, в котором я анализирую «ngrams». В моей программе есть метод, который создает биграммы и триграммы. Однако они объединяют только последовательные соседние слова, где я хочу получить все комбинации слов... Например,...

1250 просмотров

java n-gram collocation

07.12.2022

Реализация N-грамм в моем корпусе, ошибка Quanteda

Я пытаюсь реализовать Quanteda в своем корпусе в R, но получаю: Error in data.frame(texts = x, row.names = names(x), check.rows = TRUE, : duplicate row.names: character(0) У меня нет большого опыта в этом. Вот загрузка набора данных:...

168 просмотров

r text analytics n-gram quanteda

03.01.2023