Наивный байесовский классификатор — это алгоритм классификации, основанный на условной вероятности и теореме Байеса. Проще говоря, наивный байесовский классификатор предполагает, что наличие определенной функции в классе не связано с наличием какой-либо другой функции.
Почему наивный байесовский метод называется наивным?
Наивный байесовский метод (NB) является «наивным», поскольку предполагает, что характеристики измерения не зависят друг от друга. Так что в основном он «наивен», потому что делает предположения, которые могут оказаться верными, а могут и нет.
Например, фрукт можно считать яблоком, если он красный, круглый и имеет диаметр около 3 дюймов. Даже если эти признаки зависят друг от друга или от существования других признаков, все эти свойства независимо влияют на вероятность того, что этот фрукт является яблоком, и поэтому он известен как «наивный».
Теорема Байеса:
Здесь,
P(A/B) = условная вероятность или вероятность A с учетом B или апостериорная вероятность.
P(A) = априорная вероятность или вероятность события, которое уже произошло.
P(B) = предельная вероятность.
P(B/A) = вероятность — вероятность того, что что-то произойдет.
В наивном байесовском классификаторе вероятность каждого класса определяется с учетом условия для каждого наблюдения в наборе данных. Класс, который имеет наибольшую вероятность среди всех других классов, является классом зависимой переменной для этого наблюдения.
Преимущества наивной байесовской классификации:
- Легко и быстро предсказать класс новой точки данных. Он также хорошо работает в прогнозировании нескольких классов.
- Когда предположение о независимости выполняется, наивный байесовский классификатор работает лучше по сравнению с другими моделями, такими как логистическая регрессия, и вам требуется меньше обучающих данных.
- Он хорошо работает в случае категориальных входных переменных по сравнению с числовыми переменными. Для числовой переменной предполагается нормальное распределение (колоколообразная кривая, что является сильным предположением).
Недостатки наивной байесовской классификации:
- Если категориальная переменная имеет категорию (в тестовом наборе данных), которая не наблюдалась в обучающем наборе данных, тогда модель присвоит 0 (нулевую) вероятность и не сможет сделать прогноз. Это часто называют «нулевой частотой». Чтобы решить эту проблему, мы можем использовать технику сглаживания. Один из простейших методов сглаживания называется оценкой Лапласа.
- С другой стороны, наивный байесовский метод также известен как плохой оценщик, поэтому к вероятностным результатам функции predict_proba не следует относиться слишком серьезно.
- Еще одним ограничением наивного байесовского метода является предположение о независимых предикторах. В реальной жизни почти невозможно получить набор полностью независимых предикторов.
Реализация:см. следующую ссылку для реализации Python и R наивной байесовской классификации:
Наивная байесовская классификация