Я использую оболочку python для SUTime NLP Stanford. До сих пор сравнивая результаты с другими парсерами дат, такими как утенок, search_dates dateparser, parsedatetime и natty, SUTime дает самые надежные результаты.
Однако он не может зафиксировать некоторые очевидные даты из документов. Ниже приведены 2 типа документов, с которыми у меня возникают трудности при анализе дат с помощью SUTime.
- Меня нет, и я не буду доступен до 19 сентября.
- Я отсутствую и не буду доступен с 18 по 20 сентября.
Это не дает результатов в случае первого документа. Однако для второго документа фиксируется только месяц, но не дата или диапазон дат.
Я попытался обдумать код Java, чтобы посмотреть, могу ли я изменить или добавить некоторые правила, чтобы это работало, но не смог понять.
Если кто-то может предложить способ заставить это работать с SUTime, это было бы очень полезно.
Кроме того, я попробовал search_dates dateparser, и он ненадежен, поскольку фиксирует все и вся. Как и в случае с первым документом, он будет анализировать дату в тексте "am out" (что необязательно) и "9/19" ( что нормально). Так что, если есть способ контролировать это поведение, он тоже будет работать.