Вопросы по теме 'fuzzy-comparison'

Использование MinHash для поиска сходства между двумя изображениями
Я использую алгоритм MinHash, чтобы найти похожие изображения между изображениями. Я наткнулся на этот пост, How can I recognize slightly modified images? , который указал мне на алгоритм MinHash . Я использовал реализацию C # из этого...
4962 просмотров

elasticsearch нечеткое соответствие max_expansions и min_similarity
Я использую нечеткое сопоставление в своем проекте в основном для поиска орфографических ошибок и разных написаний одних и тех же имен. Мне нужно точно понимать, как работает нечеткое сопоставление эластичного поиска и как он использует 2 параметра,...
10134 просмотров

OCR: выберите лучшую строку на основе последних N результатов (адаптивный фильтр для OCR).
Я видел несколько вопросов о выборе наилучшего результата OCR с учетом вывода из разных движков, и ответ, как правило, «выберите лучший движок». Однако я хочу захватить несколько кадров текстовых изображений с возможными временными окклюзиями или...
568 просмотров

сравнение изображений в матлабе
Я пытаюсь создать базу данных изображений, которую можно использовать для сравнения с текущим изображением (поэтому, если текущее изображение равно или почти равно сравниваемому, оно даст совпадение) Однако, чтобы начать этот проект, я хочу просто...
1695 просмотров

Агрегируйте строки, используя нечеткое сопоставление
Предположим, у меня есть журнал ошибок, и я хочу получить количество ошибок каждого типа . Я уже провел наивный подсчет, сгруппировав по сообщениям об ошибках, однако многие сообщения содержат контекстно-зависимую информацию, а это означает, что,...
670 просмотров
schedule 17.03.2023

Является ли вычисление расстояния Дамерау-Левенштейна Jellyfish ошибкой?
Я пытаюсь использовать Mellyfish для работы с нечеткими строками. Я заметил странное поведение алгоритма расстояния Дамерау-Левенштейна . Например: import jellyfish as jf In [0]: jf.damerau_levenshtein_distance('ZX', 'XYZ') Out[0]: 3 In [1]:...
3312 просмотров

Найдите совпадение двух фреймов данных и перепишите ответ как фрейм данных.
у меня есть два фрейма данных, которые очищены и объединены в один файл csv, фреймы данных такие **Source Master** chang chun petrochemical CHANG CHUN GROUP chang chun plastics CHURCH AND DWIGHT CO INC...
313 просмотров
schedule 17.04.2023

Объединение фреймов данных на основе частичных совпадений адресных строк
Я ищу способ сопоставить два разных кадра адресных данных. Оба содержат строку текста (столбец «Строка» в моем примере), идентификатор типа почтового индекса/почтового индекса (столбец «ПК») и уникальный код Ref или ID. Мне нужно, чтобы полученные...
1086 просмотров
schedule 22.11.2022

Позиция приблизительных совпадений подстрок в R
Я использую R для обработки строк. У меня есть фрейм данных со столбцом строк, скажем: df <- data.frame(textcol=c("In this substring would like to find the position of this substring", "I would also like to find the position of thes...
765 просмотров
schedule 23.10.2022

Сопоставить столбцы имени фрейма данных pandas со столбцами другого фрейма данных?
Я очень новичок в Python. Как я могу сопоставить один текстовый фрейм данных с другим? (пожалуйста, отредактируйте этот вопрос, если я задам это неправильно) Например, учитывая эти входные данные: df1 = id Names 0 123...
221 просмотров
schedule 22.01.2024

RecordLinkage: как соединить только лучшие совпадения и экспортировать объединенную таблицу?
Я пытаюсь использовать пакет R RecordLinkage для сопоставления элементов в списке заказов на покупку с записями в главном каталоге. Ниже приведен код R и воспроизводимый пример с использованием двух фиктивных наборов данных (DOrders и DCatalogue):...
1553 просмотров

Нечеткое сопоставление строк Wuzzy с двумя большими наборами данных на основе условия — Python
У меня есть 2 больших набора данных, которые я прочитал в Pandas DataFrames (~ 20 тыс. строк и ~ 40 тыс. строк соответственно). Когда я пытаюсь объединить эти два DF напрямую, используя pandas.merge в поле адреса, я получаю незначительное количество...
11915 просмотров

Как применить машинное обучение к нечеткому сопоставлению
Допустим, у меня есть система MDM (Master Data Management), основное применение которой — обнаружение и предотвращение дублирования записей. Каждый раз, когда торговый представитель вводит нового клиента в систему, моя платформа MDM выполняет...
15684 просмотров

Нечеткое совпадение строки в одном столбце с той же строкой в ​​следующем столбце
Я хотел бы найти информацию в одном столбце на основе другого столбца. Итак, у меня есть несколько слов в одном столбце и полные предложения в другом. Я хотел бы знать, находит ли он слова в этих предложениях. Но иногда слова не совпадают, поэтому...
907 просмотров
schedule 22.06.2022

Числовое нечеткое сравнение в кадрах данных Python/pandas
У меня есть четыре таблицы производства расписания авиакомпаний. На самом деле у меня нет столбца PK, но я помещаю его туда, чтобы мне было проще обращаться к полетам. У меня они есть в pd.DataFrames прямо сейчас. Таблица 1. Проект №1...
67 просмотров
schedule 20.02.2023

Проблемы с производительностью при нечетком сравнении для больших списков
Есть два списка, каждый из которых содержит имена. Каждое имя в списке1 должно сравниваться с именами в списке2, чтобы найти точные/похожие имена. Я не специалист по нечетким сравнениям. Решил использовать fuzzywuzzy для этой задачи. Образец...
942 просмотров
schedule 06.07.2022

Сравните и свяжите строки с разным порядком слов/количеством слов
Я пытаюсь использовать пакет recordLinkage, чтобы связать два набора данных, где один набор данных имеет тенденцию давать несколько фамилий/отчеств, а другой просто дает одну фамилию. В настоящее время используемой функцией сравнения строк является...
236 просмотров

Суммируйте все значения, когда их fuzz.WRatio > 90, в противном случае оставьте без изменений.
То, что я хочу сделать, это на самом деле сгруппировать по всем похожим строкам в одном столбце и суммировать их соответствующие значения, если есть сходство, в противном случае оставьте их. Немного похоже на этот пост. К сожалению, мне не удалось...
58 просмотров

Нечеткий поиск столбца в Pandas
Есть ли способ найти значение в столбце фрейма данных, используя FuzzyWuzzy или аналогичную библиотеку? Я пытаюсь найти значение в одном столбце, которое соответствует значению в другом, принимая во внимание нечеткое соответствие. Так Так,...
231 просмотров