Идентификация почти повторяющихся записей с использованием синонимов в R

Я пытаюсь определить почти повторяющиеся записи имен в базе данных. Я новичок в базах данных, однако я знаком с R. Я могу получить кластеры почти дубликатов, используя нечеткое сопоставление и soundex в R. Однако есть несколько имен, которые являются синонимами друг друга. Я хотел бы сгруппировать имена на основе этого критерия вместе с приведенными выше.

Я хочу сделать так, как предложено в Методы поиска почти повторяющихся записей но с синонимами. Насколько я понимаю, существует своего рода база данных синонимов для английских слов под названием WordNet с наборами синонимов, называемыми синсетами. Но записи в названиях полей бывают разных форматов и языков.

Например, если вы знаете, что «R версии 3.0.3» и «Теплый щенок» являются синонимами. Я хочу иметь возможность использовать такие пользовательские синсеты syn1 ‹- c("R version 3.0.3", "Warm Puppy") для кластеризации рядом с дубликатами.

В будущем я также хотел бы разделить омонимы на кластеры на основе записей в других полях (столбцах) записи.

Есть ли способ реализовать это в R?


person Crops    schedule 14.03.2014    source источник


Ответы (1)


Урожай, это не ответ, но может помочь вам или другим, кто ответит.

Как я полагаю, вы знаете, что пакет TM позволяет использовать пользовательские стоп-слова, но я не могу вспомнить пользовательский вектор синонимов, как в вашем примере с Warm Puppy. Это было бы очень полезно.

Во-вторых, пакет qdap Тайлера Ринкера имеет множество возможностей и может иметь (или он может создать) такую ​​возможность-синоним.

В-третьих, пакет RTextTools объединяет множество пакетов и функций. Команда, стоящая за этим, может помочь.

Было бы очень полезно иметь синоним-вектор для того, чем я занимаюсь. Удачи, и я проверю.

person lawyeR    schedule 14.03.2014
comment
Да @user2583119 user2583119 это не ответ, но я думаю, что вы подтолкнули дискуссию в правильном направлении. Пакет qdap имеет функцию поиска синонимов syn, которая использует встроенный словарь SYNONYMN. Если для того же можно использовать пользовательский словарь в качестве фрейма данных, мы можем попытаться получить желаемую кластеризацию синонимов. - person Crops; 15.03.2014
comment
благодаря Тайлеру Ринклеру в qdap появилась определяемая пользователем опция поиска синонимов. Я постараюсь использовать это. - person Crops; 18.03.2014