Вопросы по теме 'n-gram'

Автозаполнение через черепицу и компонент термвектора
Один из способов реализовать автозаполнение, подобное Google, — объединить черепицу и компонент термвектора в Solr 1.4. Сначала мы генерируем все распределения n-грамм с компонентом черепицы, а затем используем термвектор, чтобы получить прогноз,...
2050 просмотров
schedule 27.02.2023

Как я могу узнать наиболее часто используемую комбинацию из 2 слов в блоке текста?
Как я могу узнать, какие два наиболее распространенных слова, которые я использовал сразу после друг друга, из блока текста? Другими словами, есть ли инструмент онлайн или офлайн (или код), где я могу копировать и вставлять текст, и он выводит мою...
638 просмотров
schedule 14.07.2023

Android и нечеткое сопоставление, n-граммы и расстояние Левенштейна
Я создаю приложение для Android, которое принимает ввод строки и возвращает ранжированный список книг, используя API Google. Я ищу способ сравнить строку с открытым концом, которую вводит пользователь, с первым элементом в списке, чтобы увидеть,...
4151 просмотров

выполнить поиск в очень большом файле ARPA за очень короткое время в Java
У меня есть файл ARPA размером почти 1 ГБ. Я должен сделать поиск в нем менее чем за 1 минуту. Я много искал, но пока не нашел подходящего ответа. Я думаю, что мне не нужно читать весь файл. Мне просто нужно перейти к определенной строке в файле и...
486 просмотров
schedule 03.04.2023

моделирование n-грамм с помощью хэш-карты Java
Мне нужно смоделировать набор n-грамм (последовательности n слов) и их контексты (слова, которые появляются рядом с n-граммой вместе с их частотой). Моя идея заключалась в следующем: public class Ngram { private String[] words; private...
4813 просмотров
schedule 06.08.2023

Пакет для создания языковых моделей n-грамм со сглаживанием? (Альтернативы НЛТК)
Я хотел бы найти какой-то тип пакета или модуля (предпочтительно Python или Perl, но подойдут и другие), которые автоматически генерируют вероятности n-грамм из входного текста, а также могут автоматически применять один или несколько алгоритмов...
2448 просмотров
schedule 16.01.2023

nGrams в apache mahout
Я запускаю алгоритм наивного байесовского классификатора через apache mahout. У нас есть возможность настроить размер грамма во время обучения и запуска экземпляра алгоритма. Изменение моего размера n-Gram с 1 на 2 резко меняет результирующую...
802 просмотров
schedule 31.12.2022

Вычисление N граммов с использованием Python
Мне нужно было вычислить униграммы, биграммы и триграммы для текстового файла, содержащего текст вроде: «Муковисцидоз поражает 30 000 детей и молодых людей только в США. Вдыхание тумана с соленой водой может уменьшить гной и инфекцию, заполняющую...
85646 просмотров
schedule 17.11.2022

Как получить массив всех ngrams в Perl Text::Ngrams
Как вы знаете, модуль Text::Ngrams в Perl может дать анализ Ngrams. Существует следующая функция для получения массива Ngrams и частот....
765 просмотров
schedule 25.08.2022

Модель Ngram и недоумение в NLTK
Чтобы поставить мой вопрос в контекст, я хотел бы обучить и протестировать/сравнить несколько (нейронных) языковых моделей. Чтобы сосредоточиться на моделях, а не на подготовке данных, я решил использовать корпус Брауна из nltk и обучить модель...
12100 просмотров
schedule 22.11.2022

N-грамм, который является наиболее частым среди всех слов
Я столкнулся со следующей проблемой на собеседовании по программированию: Задача 1: N-граммы N-грамма - это последовательность из N последовательных символов данного слова. У слова «пилот» есть три 3-грамма: «пил», «ило» и «лот». Для данного...
7806 просмотров
schedule 05.01.2023

Список `k` слов, начинающихся с фиксированного префикса, в порядке убывания их частоты
У меня есть список примерно из 10^5 английских слов и их начальная частота. Я хочу написать программу предложения завершения слов, которая будет возвращать список максимальных k слов, начиная с заданного префикса, отсортированных в порядке...
477 просмотров

Отдавайте предпочтение точным совпадениям, а не nGram в elasticsearch
Я пытаюсь сопоставить поле как nGram и «точное» совпадение и сделать так, чтобы точные совпадения отображались первыми в результатах поиска. Это ответ на аналогичный вопрос , но я изо всех сил пытаюсь заставить его работать. Независимо от того,...
2726 просмотров
schedule 26.02.2023

Оценка методов идентификации языка
Частью моей дипломной работы является оценка количества уже доступных методов определения языка, а затем, наконец, реализация одного из них. Для этого я выбрал следующие методы, Категоризация текста на основе N-грамм от Cavnar и Trenkle...
85 просмотров

Генерировать случайное предложение из грамматики или Ngrams?
Я пишу программу, которая должна выдавать случайное предложение сложности по моему выбору. В качестве конкретного примера я хотел бы помочь своему изучению языка, выплевывая правильные предложения грамматической структуры и используя слова, которые я...
1135 просмотров
schedule 21.06.2022

Более высокий балл за первое слово в ElasticSearch
Прямо сейчас мой поиск дает мне нежелательные результаты, когда я ищу, скажем, «яйцо». Я получаю следующее: _score: 2.7645843 _source: django_id: "18003" text: "Bagels, egg" content_auto: "Bagels, egg" django_ct: "web.fooddes"...
770 просмотров
schedule 18.01.2023

Как хранить данные из Google Ngram API?
Мне нужно хранить данные, представленные на графиках, на сайте Google Ngram. Например, я хочу сохранить количество вхождений слова «это» в процентах с 1800 по 2008 год, как показано по следующей ссылке:...
1153 просмотров
schedule 02.11.2022

составить новое предложение с моделью n-грамм, используя nltk
Я сделал 2-х и 3-х граммовые модели из своего текстового файла. from nltk import * text = open('Alice in Wonderland.txt', 'r').read() table = string.maketrans('', '') text = text.translate(table, string.punctuation) tokens =...
952 просмотров
schedule 03.11.2023

N-грамм с ArrayList
Я занимаюсь проектом, в котором я анализирую «ngrams». В моей программе есть метод, который создает биграммы и триграммы. Однако они объединяют только последовательные соседние слова, где я хочу получить все комбинации слов... Например,...
1250 просмотров
schedule 07.12.2022

Реализация N-грамм в моем корпусе, ошибка Quanteda
Я пытаюсь реализовать Quanteda в своем корпусе в R, но получаю: Error in data.frame(texts = x, row.names = names(x), check.rows = TRUE, : duplicate row.names: character(0) У меня нет большого опыта в этом. Вот загрузка набора данных:...
168 просмотров
schedule 03.01.2023