Я хотел бы найти какой-то тип пакета или модуля (предпочтительно Python или Perl, но подойдут и другие), которые автоматически генерируют вероятности n-грамм из входного текста, а также могут автоматически применять один или несколько алгоритмов сглаживания.
То есть я ищу что-то вроде класса NLTK NgramModel
. Я не могу использовать это для своих целей, потому что есть некоторые ошибки с функциями сглаживания, которые заставляют его задыхаться, когда вы запрашиваете вероятность слова, которое он не видел раньше.
Я прочитал форумы разработчиков для NLTK, и на данный момент, похоже, в этом нет никакого прогресса.
Есть ли альтернативы?