Наивная байесовская классификация текста, сглаживание по Лапласу

Я пытаюсь реализовать наивный байесовский классификатор и действительно запутал проблему сглаживания Лапласа.

Вероятность получить слово в классе C:

<pre>  
    P(Wi|C) = (count(Wi,C) + 1) / (count(all, C) + |V|)  
</pre>

Но что такое В? Это лексика только учебного корпуса? Или V - это весь английский словарь?


person fredholm    schedule 03.07.2015    source источник


Ответы (2)


Это должна быть лексика учебного корпуса.

person Alex    schedule 21.12.2015

Сглаживание по Лапласу в наивном байесовском методе используется для поддержания компромисса смещения или избыточной подгонки — проблемы подгонки.

Он добавляет гиперпараметр (альфа) к вашему полю числителя и знаменателя к вашей формуле. Вы должны настроить этот параметр для выбора лучшей модели с использованием методов GridSearch или RandomSearch. https://towardsdatascience.com/hyperparameter-tuning-c5619e7e6624

person Gopu_Tunas    schedule 27.11.2019