КОДЕКС

Наивный байесовский классификатор

Вероятностная модель машинного обучения

Наивный байесовский классификатор принадлежит к семейству вероятностных моделей машинного обучения, которые используются для задачи классификации. В основе этого классификатора лежит теорема Байеса.

Итак, давайте посмотрим, что такое теорема Байеса.

Теорема Байеса

Следующая формула изображает теорему Байеса, в которой мы находим вероятность того, что данное B произошло.

Путешествие от теоремы Байеса к наивному Байесу

Это формула теоремы Байеса, где X - вектор характеристик

Теперь здесь мы делаем предположение, что появление признака полностью не зависит от появления других признаков. Не будет влияния одного на другое. Вот почему это называется наивным. Это означает, что если у нас есть 2 функции [«хорошо», «отлично»] и мы увидели вероятность «хорошо», вы ничего не можете сказать о вероятности «отлично».

Другое предположение заключается в том, что все предикторы (функции) одинаково влияют на результат.

Теперь, расширяя наш X и применяя правило цепочки, мы получаем

Мы видим, что знаменатель (коэффициент нормализации) инертен, поэтому мы можем удалить его и переписать наше уравнение как

Прогнозы будут сделаны на основе оценки того, какой класс дает нам максимальную вероятность:

Типы наивных байесовских классификаторов

  • Наивный Байес по Гауссу: в Наивном Байесе по Гауссу предполагается, что непрерывные значения, связанные с каждой функцией, распределены в соответствии с распределением Гаусса. Это дает нам колоколообразную кривую.

Формула для нахождения вероятности-

  • Полиномиальный наивный байесовский метод: это в основном используется для решения проблемы классификации документов, например, относится ли документ к категории спорта, политики, технологий и т. Д. Функции / предикторы, используемые классификатором, - это частота слов, присутствующих в документе.
  • Многомерный наивный байесовский метод Бернулли: он похож на полиномиальный наивный байесовский метод, но предикторами являются логические переменные. Например, если слово встречается в тексте или нет.

Наивная теорема Байеса быстрая, но из-за того, что в ней предполагается, что каждый предсказатель независим, она не подходит для решения реальных проблем много раз.

Для полной реализации обратитесь к следующей ссылке GitHub



ads-22 / ML-Practice
Содействуйте развитию ads-22 / ML-Practice, создав учетную запись на GitHub. github.com



Ссылка на набор данных - https://www.kaggle.com/uciml/mushroom-classification