Пакет для создания языковых моделей n-грамм со сглаживанием? (Альтернативы НЛТК)

Я хотел бы найти какой-то тип пакета или модуля (предпочтительно Python или Perl, но подойдут и другие), которые автоматически генерируют вероятности n-грамм из входного текста, а также могут автоматически применять один или несколько алгоритмов сглаживания.

То есть я ищу что-то вроде класса NLTK NgramModel. Я не могу использовать это для своих целей, потому что есть некоторые ошибки с функциями сглаживания, которые заставляют его задыхаться, когда вы запрашиваете вероятность слова, которое он не видел раньше.

Я прочитал форумы разработчиков для NLTK, и на данный момент, похоже, в этом нет никакого прогресса.

Есть ли альтернативы?


person Alan H.    schedule 13.07.2011    source источник
comment
Всем привет! Как вы рассчитали недоумение? Какой набор инструментов или пакет был полезен для вас? Теперь я застрял с той же проблемой :( Не могу использовать nltk для вычисления недоумения.   -  person Ana_Sam    schedule 21.10.2015


Ответы (3)


Похоже, я ответил на свой вопрос, поэтому я упомяну, что я нашел здесь, если другие ищут это.

Я нашел два набора инструментов:

Оказывается, у них очень похожий функционал. Оба включают в себя множество функций сглаживания.

person Alan H.    schedule 14.07.2011

NLTK также предоставляет пакет модели ngram, в котором есть сглаживание, отсрочка и т. д.

person Adam_G    schedule 06.04.2015

Я предполагаю, что другим ответом будет загрузка наборов данных, предоставляемых Google, если эти данные подходят для вашего приложения, или, возможно, используйте их онлайн-просмотрщик.

person snim2    schedule 28.08.2011