Пакет для создания языковых моделей n-грамм со сглаживанием? (Альтернативы НЛТК)

Я хотел бы найти какой-то тип пакета или модуля (предпочтительно Python или Perl, но подойдут и другие), которые автоматически генерируют вероятности n-грамм из входного текста, а также могут автоматически применять один или несколько алгоритмов сглаживания.

То есть я ищу что-то вроде класса NLTK NgramModel. Я не могу использовать это для своих целей, потому что есть некоторые ошибки с функциями сглаживания, которые заставляют его задыхаться, когда вы запрашиваете вероятность слова, которое он не видел раньше.

Я прочитал форумы разработчиков для NLTK, и на данный момент, похоже, в этом нет никакого прогресса.

Есть ли альтернативы?

nlp nltk n-gram

Alan H. 13.07.2011 источник

comment

Всем привет! Как вы рассчитали недоумение? Какой набор инструментов или пакет был полезен для вас? Теперь я застрял с той же проблемой :( Не могу использовать nltk для вычисления недоумения. - Ana_Sam 21.10.2015

Ответы (3)

arrow_upward
5
arrow_downward

Похоже, я ответил на свой вопрос, поэтому я упомяну, что я нашел здесь, если другие ищут это.

Я нашел два набора инструментов:

Оказывается, у них очень похожий функционал. Оба включают в себя множество функций сглаживания.

Alan H. 14.07.2011

arrow_upward
0
arrow_downward

NLTK также предоставляет пакет модели ngram, в котором есть сглаживание, отсрочка и т. д.

Adam_G 06.04.2015

arrow_upward
-2
arrow_downward

Я предполагаю, что другим ответом будет загрузка наборов данных, предоставляемых Google, если эти данные подходят для вашего приложения, или, возможно, используйте их онлайн-просмотрщик.

snim2 28.08.2011

Пакет для создания языковых моделей n-грамм со сглаживанием? (Альтернативы НЛТК)

Ответы (3)

Вопросы по теме