Пример настройки
Я связываю набор данных, чтобы найти в нем повторяющиеся записи. Я не знаю, сколько раз дубликат может появиться в моем наборе данных.
После блокировки я получаю следующий набор данных:
[Это пример набора данных, а не мои настоящие данные]
1st Dataset: Region AB_1, df1
FName_1 SName_1 Area_1 Age_1
1a Ben Nevis AB 30
2a Ben Neviss AB 30
3a Andy Red AB 35
4a Andy Redd AB 35
2nd Dataset: Region AB_2, df2
FName_2 SName_2 Area_2 Age_2
1b Ben Nevis AB 30
2b Ben Neviss AB 30
3b Andy Red AB 35
4b Andy Redd AB 35
Итак, я сравниваю записи в одном наборе данных друг с другом.
Я сравниваю приведенные выше наборы данных вместе, используя алгоритм EM, основанный на алгоритме Fellegi Sunter, с переменными согласования «имя», «фамилия» и «возраст».
Я создаю свое пространство сравнения, сравнивая каждую отдельную запись в наборе данных 1 с каждой отдельной записью в наборе данных 2, то есть 4 * 4 = 16 возможных пар записей.
e.g.
Record 1 vs Record 2
1a 1b
1a 2b
1a 3b
1a 4b
2a 1b
2a 2b
2a 3b
2a 4b
3a 1b
3a 2b
3a 3b
3a 4b
4a 1b
4a 2b
4a 3b
4a 4b
Проблема
Однако это означает, что в мой EM-алгоритм передаются одни и те же записи, сравниваемые сами с собой:
e.g.
1a 1b
2a 2b
3a 3b
4a 4b
Это не обязательно, это всего лишь остаток от формирования пространства сравнения.
Поскольку EM-алгоритм представляет собой «алгоритм обучения», который оптимизирует веса переменных согласия и несогласия на основе входной информации, я, по сути, предоставляю ему больше обучающей информации.
Это отражено в результатах;
Если я удалю эти записи до запуска моего алгоритма, я получу 3001 запись с оценкой выше 0,9 (используя мой реальный набор данных).
Однако, если я удалю эти записи после запуска своего алгоритма, я получу только 2486 записей выше оценки 0,9 (с использованием моего реального набора данных).
т.е. если я включу эти повторяющиеся примеры, это будет более избирательно.
В конечном счете:
Мне не имеет смысла включать их в EM, но я обеспокоен тем, что удаление снизит точность моего алгоритма.
Должен ли я удалить эти известные дубликаты перед запуском EM?