Openrefine — согласование по второму или третьему кандидату

Со службой согласования я часто сталкиваюсь с этой проблемой: лучший кандидат не совсем правильный, лучшим является второй или третий кандидат (объявление, у которого также есть лучший результат), например:

Третий кандидат правильный

Как правильно выбрать по массе? У меня тысячи записей, и я натыкаюсь на множество подобных случаев. Я думаю, что это должно быть каким-то образом, который не делает это один за другим.

Например, что-то, что говорит: «Возьмите лучший балл кандидата, независимо от его позиции».

Редактировать: как pintoch говорит, что это может быть ошибка. Тем временем можно создать два числовых аспекта. Один с cell.recon.candidates[1].score, а другой с cell.recon.candidates[2].score. Играя с ними, можно выбрать оценку третьего и второго кандидатов, чтобы убедиться, что вы получите кандидата с лучшим результатом. Затем его нужно согласовать по одному, но это всего лишь вопрос щелчка.


person Lara M.    schedule 19.12.2018    source источник


Ответы (1)


Я бы сказал, что такое поведение в первую очередь является ошибкой: кандидаты должны быть отсортированы по убыванию балла. API службы сверки не указывает, что службы должны возвращать своих кандидатов с какой-либо конкретный порядок, но это, вероятно, непреднамеренно.

Самым быстрым решением было бы связаться с человеком, управляющим службой сверки, которую вы используете, и попросить его отсортировать кандидатов по уменьшению баллов на их стороне.

Это также предполагает улучшения в самом OpenRefine: OpenRefine всегда может сортировать результаты службы сверки по убыванию оценки. Я открыл билет по этому поводу.

В более широком смысле я согласен с тем, что существующие способы подбора кандидатов на основе конкретных критериев можно было бы улучшить (но для этого может потребоваться переработка важных частей системы согласования, что потребует времени).

person pintoch    schedule 19.12.2018
comment
Спасибо за ваш ответ. Я понимаю, что это не то, что можно сделать одним махом. А пока спрошу у службы примирения и/или попробую какие-нибудь решения вроде огранки по cell.recon.best.score (не знаю, сработает ли). - person Lara M.; 19.12.2018
comment
Кроме того, я использую сервис согласования VIAF (сейчас conciliator 3.0). - person Lara M.; 19.12.2018