Рецепт Google Refine для согласования беспорядочных сущностей в двух базах данных

У меня есть две базы данных грязных имен, таких как эти:

  • Джиндал, Бобби
  • Губернатор Флориды Бобби Джиндал
  • Бобби Джиндал
  • 3М Корп.
  • 3М Меномони

Мне нужно найти совпадения. Может ли кто-нибудь указать мне или предложить хороший рецепт, как это сделать в Google Refine?

Эта ссылка дает мне отправную точку, но я мог бы использовать дополнительные советы: http://blog.ouseful.info/2011/05/06/merging-datesets-with-common-columns-in-google-refine/


person kateyg    schedule 06.05.2012    source источник


Ответы (2)


Вы можете попробовать наше расширение Refine, см., в частности, согласование часть документа.

person Michael Hausenblas    schedule 07.05.2012

Функция cell.cross похожа на vlookup в Excel, она будет совпадать, только если ваши две ячейки идентичны. Если вы хотите использовать этот метод, вам нужно будет заранее кластеризовать и очистить данные.

Поддерживаю ответ Михаила. Попробуйте службу согласования: rdf или открытое согласование.

person magdmartin    schedule 16.05.2012