Вопросы по теме 'n-gram'
Автозаполнение через черепицу и компонент термвектора
Один из способов реализовать автозаполнение, подобное Google, — объединить черепицу и компонент термвектора в Solr 1.4.
Сначала мы генерируем все распределения n-грамм с компонентом черепицы, а затем используем термвектор, чтобы получить прогноз,...
2050 просмотров
schedule
27.02.2023
Как я могу узнать наиболее часто используемую комбинацию из 2 слов в блоке текста?
Как я могу узнать, какие два наиболее распространенных слова, которые я использовал сразу после друг друга, из блока текста? Другими словами, есть ли инструмент онлайн или офлайн (или код), где я могу копировать и вставлять текст, и он выводит мою...
638 просмотров
schedule
14.07.2023
Android и нечеткое сопоставление, n-граммы и расстояние Левенштейна
Я создаю приложение для Android, которое принимает ввод строки и возвращает ранжированный список книг, используя API Google.
Я ищу способ сравнить строку с открытым концом, которую вводит пользователь, с первым элементом в списке, чтобы увидеть,...
4151 просмотров
schedule
18.04.2024
выполнить поиск в очень большом файле ARPA за очень короткое время в Java
У меня есть файл ARPA размером почти 1 ГБ. Я должен сделать поиск в нем менее чем за 1 минуту. Я много искал, но пока не нашел подходящего ответа. Я думаю, что мне не нужно читать весь файл. Мне просто нужно перейти к определенной строке в файле и...
486 просмотров
schedule
03.04.2023
моделирование n-грамм с помощью хэш-карты Java
Мне нужно смоделировать набор n-грамм (последовательности n слов) и их контексты (слова, которые появляются рядом с n-граммой вместе с их частотой). Моя идея заключалась в следующем:
public class Ngram {
private String[] words;
private...
4813 просмотров
schedule
06.08.2023
Пакет для создания языковых моделей n-грамм со сглаживанием? (Альтернативы НЛТК)
Я хотел бы найти какой-то тип пакета или модуля (предпочтительно Python или Perl, но подойдут и другие), которые автоматически генерируют вероятности n-грамм из входного текста, а также могут автоматически применять один или несколько алгоритмов...
2448 просмотров
schedule
16.01.2023
nGrams в apache mahout
Я запускаю алгоритм наивного байесовского классификатора через apache mahout. У нас есть возможность настроить размер грамма во время обучения и запуска экземпляра алгоритма.
Изменение моего размера n-Gram с 1 на 2 резко меняет результирующую...
802 просмотров
schedule
31.12.2022
Вычисление N граммов с использованием Python
Мне нужно было вычислить униграммы, биграммы и триграммы для текстового файла, содержащего текст вроде:
«Муковисцидоз поражает 30 000 детей и молодых людей только в США. Вдыхание тумана с соленой водой может уменьшить гной и инфекцию, заполняющую...
85646 просмотров
schedule
17.11.2022
Как получить массив всех ngrams в Perl Text::Ngrams
Как вы знаете, модуль Text::Ngrams в Perl может дать анализ Ngrams. Существует следующая функция для получения массива Ngrams и частот....
765 просмотров
schedule
25.08.2022
Модель Ngram и недоумение в NLTK
Чтобы поставить мой вопрос в контекст, я хотел бы обучить и протестировать/сравнить несколько (нейронных) языковых моделей. Чтобы сосредоточиться на моделях, а не на подготовке данных, я решил использовать корпус Брауна из nltk и обучить модель...
12100 просмотров
schedule
22.11.2022
N-грамм, который является наиболее частым среди всех слов
Я столкнулся со следующей проблемой на собеседовании по программированию:
Задача 1: N-граммы
N-грамма - это последовательность из N последовательных символов данного слова. У слова «пилот» есть три 3-грамма: «пил», «ило» и «лот». Для данного...
7806 просмотров
schedule
05.01.2023
Список `k` слов, начинающихся с фиксированного префикса, в порядке убывания их частоты
У меня есть список примерно из 10^5 английских слов и их начальная частота. Я хочу написать программу предложения завершения слов, которая будет возвращать список максимальных k слов, начиная с заданного префикса, отсортированных в порядке...
477 просмотров
schedule
06.04.2023
Отдавайте предпочтение точным совпадениям, а не nGram в elasticsearch
Я пытаюсь сопоставить поле как nGram и «точное» совпадение и сделать так, чтобы точные совпадения отображались первыми в результатах поиска. Это ответ на аналогичный вопрос , но я изо всех сил пытаюсь заставить его работать.
Независимо от того,...
2726 просмотров
schedule
26.02.2023
Оценка методов идентификации языка
Частью моей дипломной работы является оценка количества уже доступных методов определения языка, а затем, наконец, реализация одного из них. Для этого я выбрал следующие методы,
Категоризация текста на основе N-грамм от Cavnar и Trenkle...
85 просмотров
schedule
08.03.2023
Генерировать случайное предложение из грамматики или Ngrams?
Я пишу программу, которая должна выдавать случайное предложение сложности по моему выбору. В качестве конкретного примера я хотел бы помочь своему изучению языка, выплевывая правильные предложения грамматической структуры и используя слова, которые я...
1135 просмотров
schedule
21.06.2022
Более высокий балл за первое слово в ElasticSearch
Прямо сейчас мой поиск дает мне нежелательные результаты, когда я ищу, скажем, «яйцо». Я получаю следующее:
_score: 2.7645843
_source:
django_id: "18003"
text: "Bagels, egg"
content_auto: "Bagels, egg"
django_ct: "web.fooddes"...
770 просмотров
schedule
18.01.2023
Как хранить данные из Google Ngram API?
Мне нужно хранить данные, представленные на графиках, на сайте Google Ngram. Например, я хочу сохранить количество вхождений слова «это» в процентах с 1800 по 2008 год, как показано по следующей ссылке:...
1153 просмотров
schedule
02.11.2022
составить новое предложение с моделью n-грамм, используя nltk
Я сделал 2-х и 3-х граммовые модели из своего текстового файла.
from nltk import *
text = open('Alice in Wonderland.txt', 'r').read()
table = string.maketrans('', '')
text = text.translate(table, string.punctuation)
tokens =...
952 просмотров
schedule
03.11.2023
N-грамм с ArrayList
Я занимаюсь проектом, в котором я анализирую «ngrams». В моей программе есть метод, который создает биграммы и триграммы. Однако они объединяют только последовательные соседние слова, где я хочу получить все комбинации слов...
Например,...
1250 просмотров
schedule
07.12.2022
Реализация N-грамм в моем корпусе, ошибка Quanteda
Я пытаюсь реализовать Quanteda в своем корпусе в R, но получаю:
Error in data.frame(texts = x, row.names = names(x), check.rows = TRUE, :
duplicate row.names: character(0)
У меня нет большого опыта в этом. Вот загрузка набора данных:...
168 просмотров
schedule
03.01.2023