Сглаживание в Python NLTK

Я использую классификатор Naive Bayes в python для классификации текста. Существуют ли какие-либо методы сглаживания, чтобы избежать нулевой вероятности невидимых слов в python NLTK? Заранее спасибо!


person Aikin    schedule 13.11.2012    source источник


Ответы (1)


Я бы предложил заменить все слова с низкой (особенно 1) частотностью на <unseen>, а затем обучить классификатор на этих данных. Для классификации вы должны запросить модель для <unseen> в случае слова, которого нет в обучающих данных.

person oroszgy    schedule 15.11.2012