Вы когда-нибудь задумывались, как ваше приложение GMAIL автоматически классифицирует вашу почту в папку СПАМ или как новости относятся к политике, технологиям и спорту сами по себе? Да, вы правильно угадали, наивный байесовский алгоритм сделает это за вас.

Наивный байесовский классификатор попадает под контролируемый классификатор, и то, что является контролируемым классификатором, выходит за рамки этой темы. Давайте погрузимся в Наивный Байес !!

Правило Байеса основано на преподобном Томасе Байесе, который использовал этот принцип для вывода о существовании Бога, странное право !! Но, поступая так, он создал целое новое семейство методов, которые во многом повлияли на искусственный интеллект и статистику.

Наивный байесовский метод называется наивным, потому что он делает предположения, которые могут оказаться верными, а могут и не оказаться. Например. фрукт можно считать яблоком, если он красный, круглый и около 4 в диаметре. Даже если эти признаки зависят друг от друга или от существования других признаков, наивный байесовский классификатор считает, что все эти свойства независимо влияют на вероятность того, что этот фрукт является яблоком.

Машинное обучение - это обучение на примерах. Итак, давайте рассмотрим еще несколько примеров, чтобы понять алгоритм.

Пример:

Фрагмент кода на Python для реализации наивного байесовского алгоритма:

from sklearn.navie_bayes import GaussianNB - ›Импортировать библиотеку Gaussian NB

clf = GaussianNB () - ›создать классификатор

clf.fit (features_train, label_train) - ›введите обучающие данные и убедитесь, что классификатор научится классифицировать дату с обучающими данными, используя метод подгонки GaussianNB

pred = clf.predict (features _test) - ›прогнозируйте тестовые данные с помощью функции прогнозирования и передайте их векторному pred, который является нашим желаемым результатом.

Пример реальной проблемы:

Теперь давайте возьмем реальную проблему и найдем решение для той же самой математической, используя правило Байеса вместо использования кода модуля GaussianNB:

Рассмотрим редкий рак, который встречается у 1% населения. Лаборатория проводит тест, и лаборатория подтверждает, что согласно тесту 90% результатов положительные, если у вас рак, и 90% - отрицательные, если у вас нет рака.

Теперь нам нужно рассчитать, каковы возможности для пациента в следующих двух сценариях:

а. Пациент прошел обследование, результат положительный, у него рак.

б. Пациент прошел обследование, результат положительный, рака нет.

Решение с правилом Байеса

Теперь пусть P © - это вероятность того, что у пациента есть рак, которая подтверждается из постановки задачи как 1%.

P©=0.01 —> Eq1

мы знаем, что 90% вероятности положительного результата, если у вас рак C. Это называется чувствительностью.

и 90% вероятность того, что это отрицательно, если у вас нет этого рака C-The, называется Конкретность.

Априорная вероятность: что означает вероятность до запуска теста.

Доказательства испытаний: вы получаете некоторые доказательства из самих испытаний

Апостериорная вероятность (дающая окончательный результат) = априорная вероятность * свидетельство теста

Из уравнения 1 априорная вероятность рака составляет P © = 0,01.

Апостериорная вероятность рака при условии, что наш тест положительный: P (C | положительный): это произведение априорной вероятности P (C) и нашей чувствительности теста, то есть, каковы шансы на положительный результат при условии, что у меня рак: P (положительный | C).

Апостериорная вероятность заболеть раком:

P (C | Pos) = P © .P (Pos | C) - - ›Уравнение 2, где pos означает положительный результат, а C - наличие рака.

P (Pos | C) = 0,9 - - ›Уравнение 3, которое является чувствительностью

Теперь нам также нужно рассчитать апостериор отсутствия рака, учитывая положительный результат теста P (C` | pos).

Апостериорная вероятность отсутствия рака:

P (C` | pos) = P (C`) .P (Pos | C`) - - ›Уравнение 4, где C` означает отсутствие рака

P (C`) = 0,99 - - ›Уравнение 5 [что P © минус 1]

Теперь, чтобы рассчитать P (Pos | C ’) для уравнения 4

Мы знаем, что наш тест дает отрицательный результат, если он свободен от рака P (Neg | C`) = 0,9, что является условием, следовательно,

P (Pos | C`) = 1-P (Neg | C`) = 1–0.0.9 = 0.10 - - ›Уравнение 6

Итак, когда мы вычисляем значения для двух уравнений, уравнения 2 и уравнения 4, мы получаем:

P (C | Pos) = P © .P (Pos | C) = 0,009 - - ›Ур. 7

P (C` | pos) = P (C`). P (Pos | C`) = 0,099 - - ›Уравнение 8

Значения формул 7 и 8 представляют собой апостериорную вероятность, но они не дают в сумме 1, поэтому они называются совместной вероятностью, а апостериорная вероятность рассчитывается, как показано ниже:

Нам нужно нормализовать два уравнения, чтобы соотношение оставалось неизменным, но чтобы они в сумме равнялись единице.

Итак, сумма двух вышеупомянутых значений (7 и 8) равна 0,108, что является вероятностью положительного результата теста P (Pos).

Нормализовать P (Pos) = 0,108 - - ›Уравнение 9

Теперь последняя задняя часть:

Он получается путем деления значения уравнения 7 с нормированным значением P (pos) уравнения 9.

P (C | Pos) = 0,0833 - - ›Ур. 10

так же

P (C` | Pos) = 0,9167 - - ›Уравнение 11

Следовательно, как и ожидалось, общая вероятность двух значений равна одному.

P (C | pos) + P (C ’| Pos) = 1 - -› Ур. 6

Наконец, результат

Вероятность того, что пациент прошел тест с положительным результатом и онкологическим заболеванием, составляет 8,33%.

Вероятность того, что пациент прошел тест с положительным результатом и не имеет рака, составляет 91,67%.