Вопросы по теме 'stringdist'

Вычислить сходство Жаккара между каждым словом в 2 векторах
Мне нужно рассчитать сходство Жаккара между каждым словом в двух векторах. Каждое слово за каждым словом. И извлеките наиболее похожее слово. Вот мой плохой плохой медленный код: txt1 <- c('The quick brown fox jumps over the lazy dog')...
1519 просмотров
schedule 28.08.2022

Передача аргументов в несколько функций match_fun в R fuzzyjoin :: fuzzy_join
Я отвечал на эти два вопроса и получил адекватное решение, но у меня возникли проблемы с передачей аргументов с использованием fuzzy_join в match_fun, который я извлек из fuzzyjoin::stringdist_join . В этом случае я использую сочетание...
3765 просмотров

Отображение соответствующих значений во фрейме данных в R
Пожалуйста, проверьте код ниже, я создал фрейм данных с использованием трех переменных ниже, переменная «y123» вычисляет сходство между столбцами a2 и a1. Переменная «y123» дает мне всего 16 значений, где каждое значение a1 сравнивается с a2. Мне...
220 просмотров
schedule 20.08.2022

Как рассчитать расстояние между струнами с помощью спарклира?
Мне нужно рассчитать расстояние между двумя строками в R с помощью sparklyr. Есть ли способ использовать stringdist или любой другой пакет? Я хотел использовать кузинскую дистанцию. Это расстояние используется как метод функции stringdist....
480 просмотров
schedule 18.11.2022

R - вернуть n совпадений через расстояние Левенштейна
Я хотел бы найти n лучших совпадений с заданной строкой через расстояние Левенштейна. Я знаю, что функция adist в R дает минимальное расстояние, но я пытаюсь масштабировать количество результатов, скажем, до 10. У меня есть код ниже. name <-...
90 просмотров

Удалить цикл for из алгоритма stringdist в R
Я сделал алгоритм для определения оценок совпадающих строк из 2 фреймов данных в R. Он будет искать для каждой строки в test_ech совпадающие строки, оценка которых превышает 0,75 в test_data (на основе совпадения 3 столбцов из каждого фрейма данных)...
193 просмотров
schedule 31.05.2022

Вес Fuzzyjoin/stringdist_join для несоответствия заглавных букв (регистр) (stringdist)
Работая с R, я ищу способы взвешивания регистра (т. е. верхний или нижний регистр) в string_dist_left_join() Вот воспроизводимый пример: library(tidyverse) library(fuzzyjoin) tibble1 <- tibble(words = c("Bedford",...
33 просмотров
schedule 12.11.2022

Использование stringdist_left_join для соединения нескольких столбцов, но не всех из них нечетких
У меня есть набор данных публикаций из 1,3 миллиона строк, и для каждой записи я хочу получить paper_id из второго набора данных с 8,6 миллионами строк. Идея состоит в том, чтобы использовать несколько столбцов из обеих таблиц для поиска совпадений...
60 просмотров
schedule 26.09.2022