Что такое алгоритм наивного байесовского классификатора в машинном обучении

Эта статья была первоначально опубликована на pianalytix.com

Наивный Байес: это метод классификации, основанный на теореме смещения с предположением о независимости событий с нормальным распределением.

Наивный байесовский классификатор предполагает, что наличие определенного признака в классе не связано с наличием какого-либо другого признака, даже если признаки зависят друг от друга или от существования другого признака. Все это независимо влияет на вероятность. НАПРИМЕР. Является ли фрукт яблоком, апельсином или бананом.

Вот почему это называется наивным

Наивная байесовская модель проста в использовании и построении для особенно больших наборов данных.

Согласно теореме смещения

В нем говорится, что: — Связь между вероятностью гипотезы до получения доказательств и после получения доказательств P(H|E) равна

PH|E=PE|H*PHPE

Где H — «гипотеза», E — «доказательство»

НАПРИМЕР. Предположим, у вас есть колода карт, и если из нее вытянута одна карта,

Вероятность того, что карта — дама = 452 = 113

Дама - событие Эта карта - дама Вероятность данного события равна 113.

Доказательства предоставлены, поскольку карта представляет собой одиночную лицевую карту

So,

PQueen|Face=PFace|Queen *PQueenPface

Предположим, что ученый по данным работает в крупном банке в Нью-Йорке и хочет классифицировать нового клиента как имеющего право на пенсию или нет.

Характеристики клиентов — его/ее возраст и зарплата

Предыдущая вероятность:

Точки могут быть классифицированы как КРАСНЫЕ или СИНИЕ, и наша задача состоит в том, чтобы классифицировать новую точку как КРАСНУЮ или СИНЮЮ.
Априорная вероятность: поскольку у нас больше СИНИХ по сравнению с КРАСНЫМИ, мы можем предположить, что наша новая точка в два раза чаще будет СИНЕЙ, чем КРАСНОЙ.

Вероятность:

Для новой точки, если в ее окрестностях есть больше СИНИХ точек, более вероятно, что новая точка классифицируется как СИНЯЯ.
Итак, мы рисуем круг вокруг точки, затем вычисляем количество каждой точки в круге, принадлежащем каждой метке класса.

Апостериорная вероятность:

Давайте объединим априорную вероятность и вероятность, чтобы создать апостериорную вероятность
Предыдущая: Предполагает, что X может быть классифицирован как СИНИЙ, потому что СИНИХ точек в 2 раза больше.
Вероятность: предполагает, что X КРАСНЫЙ, потому что поблизости от X есть больше КРАСНЫХ точек
Правило Байеса объединяет оба, чтобы сформировать апостериорную вероятность.

Здесь у нас есть данные для определенного места, которое мы хотим знать, есть ли шанс сыграть в игру завтра

Таблицы частот

Для Outlook

Прогноз P(X|C) =P(Солнечно)/Да) = 3/10 = 0,30

P(X) =P(Солнечный) = 5/14 = 0,36

Р(С) = Р(Да) = 10/14 = 0,71

Вероятность «да», учитывая солнечное время

ПК=PДа*PCPX

PC=0.3*0.360.71=0.591

так же

Вероятность «НЕТ» = (0,4*0,36)/0,36 = 0,40

Предположим, у нас есть данные

Внешний вид = Да

Влажность=Высокая

Ветер=Низкий

Затем Воспроизвести =???

Итак, давайте начнем предсказывать, какова возможность игры завтра, используя наивные заливы.

Вероятность «да» в этот день

=[PДа* Да* Да* Да* Да]

=29*39*69*914=0.0199

Аналогично для "НЕТ" = [PNO* PNo* PNo*PNo]

=25*45*25*514=0.0166

Вероятность игры на этом:

PДа=0,01990,199+0,166=55 %

PNo=0,0660,199+0,166=45 %

Здесь есть 55% шанс сыграть в этот день.

ПРОМЫШЛЕННОЕ ИСПОЛЬЗОВАНИЕ МОДЕЛИ:

Классификация новостей: с помощью модели Naïve Bays мы можем классифицировать новости на основе их содержания по их типу, например спортивные новости, политические, национальные, международные, финансы, фондовый рынок, кино, медиаобразование и т. д.
Спам-почта или фильтр сообщений
Обнаружение объекта
Медицинский диагноз: очень полезен и эффективен в медицинской сфере и дает точное наблюдение.
Является ли предсказание (как мы сделали в нашем примере).

Типы наивного Байеса:

Гауссов: он используется в классификации и предполагает, что функция следует нормальному распределению
Полиномиальный: он используется для дискретного счета для E.G. Текстовая классификация
Бернулли: это еще один шаг вперед, и вместо слова, встречающегося в документе, мы подсчитываем, как после того, как слово встречается в документе

На основе набора данных вы можете использовать любой из них.

Проверьте оригинальный блог здесь: https://pianalytix.com/what-is-naive-bayes-classifier-algorithm-in-machine-learning/

Если вас интересует курс машинного обучения, вы можете проверить Программа стажировки по машинному обучению.