Я экспериментирую с apache Open NLP для одного из моих проектов, мое требование состоит в том, чтобы обнаруживать существительные из содержимого электронной почты и сверяться с нашей базой данных клиентов (эта БД состоит из отдельных имен, названий организаций и т. д., а моя поисковая система - база Solr).
Для обычных английских существительных модель, обученная по умолчанию, работает правильно (в большинстве случаев), но одно из сложных требований заключается в том, что у нас есть бизнес-организация с такими сокращениями, как OK, LET и т. д., и поэтому в нескольких сценариях мне нужно учитывать OK, LET и т. д. как существительное.
В качестве примера 1) "отправка некоторых товаров в LET, пожалуйста, ожидайте задержки в оплате" 2) "пойдем на вечеринку"
В № 1 я хочу рассматривать LET как существительное, а в случае № 2 LET не является существительным.
Если я смогу выполнить это требование, я смогу значительно уменьшить количество ложноположительных совпадений в моей поисковой системе.
Любая помощь высоко ценится.