Я использую классификатор Naive Bayes в python для классификации текста. Существуют ли какие-либо методы сглаживания, чтобы избежать нулевой вероятности невидимых слов в python NLTK? Заранее спасибо!
Сглаживание в Python NLTK
Ответы (1)
Я бы предложил заменить все слова с низкой (особенно 1) частотностью на <unseen>
, а затем обучить классификатор на этих данных. Для классификации вы должны запросить модель для <unseen>
в случае слова, которого нет в обучающих данных.
person
oroszgy
schedule
15.11.2012