Создание сущностей

Это последняя часть мини-серии о разрешении сущностей. Посмотрите часть 1, часть 2, часть 3, часть 4, часть 5, если вы ее пропустили

Конечным выходом ER является структура данных, которая имеет уникальные идентификаторы для каждой разрешенной сущности, а также сопоставления между уникальным идентификатором сущности и соответствующими идентификаторами разрешенных записей данных в разрозненных исходных системах. Это относительно просто сделать с помощью

  1. устранение несовпадающей пары кандидатов с помощью настроенной функции оценки на основе модели. Обычно это означает выбор порога отсечения для вероятности совпадения после итерации подсчета очков. Мы выбрали 0,5 для нашего примера варианта использования на основе ручной проверки, но это значение может варьироваться в зависимости от наборов данных, функций, модели и варианта использования.
  2. повторное создание графа с использованием единственного «сильного» ребра, которое превышает порог вероятности совпадения
  3. создание сопоставления компонентов (или сущностей) с помощью алгоритма связанных компонентов

Вот и все! Теперь у нас есть таблица сопоставления, которая соединяет разрозненные записи данных в единые сущности. Отсюда обычно полезно создавать канонические таблицы сущностей путем выбора или генерации канонических метаданных (например, имени, описания и т. Д.) На основе приоритезации или объединения отдельных значений метаданных из каждой из связанных записей. Конкретный подход здесь будет во многом зависеть от желаемого приложения и рабочего процесса, поэтому мы не будем углубляться в него.

На этом завершается серия мини-сериалов о разрешении сущностей. Это не исчерпывающее исследование, но, надеюсь, дает практический обзор основных концепций и шагов реализации, которые помогут вам начать работу над собственным приложением. Я приветствую любые ваши комментарии и предложения.