Наивный байесовский классификатор — это алгоритм классификации, основанный на условной вероятности и теореме Байеса. Проще говоря, наивный байесовский классификатор предполагает, что наличие определенной функции в классе не связано с наличием какой-либо другой функции.

Почему наивный байесовский метод называется наивным?

Наивный байесовский метод (NB) является «наивным», поскольку предполагает, что характеристики измерения не зависят друг от друга. Так что в основном он «наивен», потому что делает предположения, которые могут оказаться верными, а могут и нет.

Например, фрукт можно считать яблоком, если он красный, круглый и имеет диаметр около 3 дюймов. Даже если эти признаки зависят друг от друга или от существования других признаков, все эти свойства независимо влияют на вероятность того, что этот фрукт является яблоком, и поэтому он известен как «наивный».

Теорема Байеса:

Здесь,

P(A/B) = условная вероятность или вероятность A с учетом B или апостериорная вероятность.

P(A) = априорная вероятность или вероятность события, которое уже произошло.

P(B) = предельная вероятность.

P(B/A) = вероятность — вероятность того, что что-то произойдет.

В наивном байесовском классификаторе вероятность каждого класса определяется с учетом условия для каждого наблюдения в наборе данных. Класс, который имеет наибольшую вероятность среди всех других классов, является классом зависимой переменной для этого наблюдения.

Преимущества наивной байесовской классификации:

  1. Легко и быстро предсказать класс новой точки данных. Он также хорошо работает в прогнозировании нескольких классов.
  2. Когда предположение о независимости выполняется, наивный байесовский классификатор работает лучше по сравнению с другими моделями, такими как логистическая регрессия, и вам требуется меньше обучающих данных.
  3. Он хорошо работает в случае категориальных входных переменных по сравнению с числовыми переменными. Для числовой переменной предполагается нормальное распределение (колоколообразная кривая, что является сильным предположением).

Недостатки наивной байесовской классификации:

  1. Если категориальная переменная имеет категорию (в тестовом наборе данных), которая не наблюдалась в обучающем наборе данных, тогда модель присвоит 0 (нулевую) вероятность и не сможет сделать прогноз. Это часто называют «нулевой частотой». Чтобы решить эту проблему, мы можем использовать технику сглаживания. Один из простейших методов сглаживания называется оценкой Лапласа.
  2. С другой стороны, наивный байесовский метод также известен как плохой оценщик, поэтому к вероятностным результатам функции predict_proba не следует относиться слишком серьезно.
  3. Еще одним ограничением наивного байесовского метода является предположение о независимых предикторах. В реальной жизни почти невозможно получить набор полностью независимых предикторов.

Реализация:см. следующую ссылку для реализации Python и R наивной байесовской классификации:

Наивная байесовская классификация