Вопросы по теме 'trigram'

Ошибка Unicode при использовании NLTK для поиска триграмм для всего корпуса и печати в csv
Я пытаюсь просмотреть целую папку текстовых файлов, собрать совокупную частоту триграмм во всех этих файлах и распечатать их в файле csv. Он выполняет всю работу с корпусом, но затем, когда он начинает работать с триграммами, я получаю следующую...
1113 просмотров
schedule 26.10.2023

Миграция поиска триграмм в Rails
У меня есть миграция: class AddGinIndexToContacts < ActiveRecord::Migration def up execute("CREATE INDEX contacts_search_idx ON contacts USING gin (first_name gin_trgm_ops, last_name gin_trgm_ops, name gin_trgm_ops)") end def down...
2256 просмотров

Повышение производительности с помощью запроса нечеткого самообъединения в Postgres сходства
Я пытаюсь выполнить запрос, который объединяет таблицу с самой собой и выполняет сравнение нечетких строк (с использованием сравнения триграмм), чтобы найти возможные совпадения с названием компании. Моя цель - вернуть записи, в которых триграммное...
2004 просмотров

Как рассчитать условное_частотное_распределение и условное_вероятностное_распределение для триграмм в nltk python
Я хочу рассчитать Распределение условной вероятности для моей языковой модели, но не могу этого сделать, потому что мне нужно Распределение условной частоты , которое я не могу сгенерировать. Это мой код: # -*- coding: utf-8 -*- import io...
1252 просмотров
schedule 05.01.2023

Расширение триграммы pg_search не работает
Rails5, он у меня установлен в базе данных pg_trgm | 1.1 | public | text similarity measurement and index searching based on trigrams) и в инициализаторе: PgSearch.multisearch_options = { :using => [:tsearch,...
829 просмотров
schedule 11.04.2023

нечеткий поиск в полнотекстовом поиске
Я использую postgresql для полнотекстового поиска и обнаружил, что пользователи не будут получать результаты, если есть орфографические ошибки. Я хочу использовать нечеткий поиск и полнотекстовый поиск вместе. Например, мне не удалось объединить...
2138 просмотров

Почему функция postgres trigram word_similarity не использует индекс джина?
В документации по триграмме postgres говорится: Модуль pg_trgm предоставляет классы операторов индексов GiST и GIN, которые позволяют создавать индекс по текстовому столбцу для очень быстрого поиска сходства. Эти типы индексов поддерживают...
568 просмотров
schedule 11.06.2022

Есть ли способ сделать триграмму аналогично целым фразам Postgres
прямо сейчас с Postgres и pg_tgrm, если я делаю какое-либо сходство (строгое слово, слово или просто стандарт), оно делает это на основе слов, поэтому запрос «разрушен» получит ранг 1 для термина «разрушен», но меньше для чего-то например,...
26 просмотров
schedule 16.10.2022

сходство триграмм в postgresql
У меня есть таблица с двумя столбцами, doc-id и doc-txt. каждая ячейка в doc-txt содержит полный текст (около 1000 слов) одного документа, а 100 тысяч документов находятся в таблице (100 тысяч строк). У меня есть список ключевых слов, и я хочу найти...
36 просмотров
schedule 14.01.2023