Наивная байесовская классификация текста, сглаживание по Лапласу

Я пытаюсь реализовать наивный байесовский классификатор и действительно запутал проблему сглаживания Лапласа.

Вероятность получить слово в классе C:

<pre>  
    P(Wi|C) = (count(Wi,C) + 1) / (count(all, C) + |V|)  
</pre>

Но что такое В? Это лексика только учебного корпуса? Или V - это весь английский словарь?

classification bayesian smoothing

fredholm 03.07.2015 источник

Ответы (2)

arrow_upward
0
arrow_downward

Это должна быть лексика учебного корпуса.

Alex 21.12.2015

arrow_upward
0
arrow_downward

Сглаживание по Лапласу в наивном байесовском методе используется для поддержания компромисса смещения или избыточной подгонки — проблемы подгонки.

Он добавляет гиперпараметр (альфа) к вашему полю числителя и знаменателя к вашей формуле. Вы должны настроить этот параметр для выбора лучшей модели с использованием методов GridSearch или RandomSearch. https://towardsdatascience.com/hyperparameter-tuning-c5619e7e6624

Gopu_Tunas 27.11.2019

Наивная байесовская классификация текста, сглаживание по Лапласу

Ответы (2)

Вопросы по теме