Похоже, что Soundex реализован в некоторых СУБД, но были ли какие-либо алгоритмические улучшения, которые определенно лучше, чем текущая реализация Soundex?
Улучшен ли Soundex?
Ответы (3)
Да. Как указывает Википедия, есть Metaphone и Double Metaphone, NYSIIS и многое другое.
Имейте в виду, что это работает только для английского языка, у которого есть свои особые проблемы с орфографией. Это вряд ли нужно для испанского языка и не имеет смысла для китайского/мандаринского языка.
Я не знаю насчет «определенно лучше», но вы можете взглянуть на Metaphone (и его варианты) и Caverphone. См., например, http://www.atomodo.com/code/double-metaphone. где есть реализация «Двойной метафон» для использования с MYSQL.
Metaphone 3 — третье поколение алгоритма Metaphone. Это повышает точность фонетического кодирования с 89 % для двойного метафона до 98 % при сравнении с базой данных наиболее распространенных английских слов, а также имен и неанглийских слов, известных в Северной Америке. Это дает чрезвычайно надежное фонетическое кодирование для американского произношения.
Metaphone 3 был спроектирован и разработан Лоуренсом Филипсом, который спроектировал и разработал оригинальные алгоритмы Metaphone и Double Metaphone.