Понимание наивного байесовского алгоритма

Вероятностный классификатор

Наивный Байес - это алгоритм классификации, который представляет собой вероятностный классификатор, основанный на теореме Байеса. Прежде чем углубляться в тонкости наивного Байеса, мы сначала разберемся с теоремой Байеса.

Теорема Байеса

Теорема Байеса гласит, что если событие B произошло, то мы можем найти вероятность события A для данного B.
Математически теорема Байеса представлена как

Где P (B)! = 0 (! = Означает не равно)
P (A | B) - вероятность события A при заданном B (называется апостериорным)
P (B | A) - вероятность события B с учетом A (называемая правдоподобием)
P (A) - вероятность события A (называемого предшествующим)
P (B) - вероятность события B (называемая доказательством)

Например, если у нас есть точка запроса X (d-мерный логический вектор), мы должны предсказать, к какому классу (Y) она принадлежит из двух. Как рассчитать вероятность Y при X?

Проблема в приведенном выше представлении

Подумайте, сколько комбинаций может существовать, если у нас есть приведенная выше формула. X - это d-мерный логический вектор, 2 ^ d возможных комбинаций для вектора X и 2 для вывода (классификация 2-го класса). Полные комбинации равны 2 ^ (d + 1) для P (X1, X2, ……, Xd | Y), что является огромным и неэффективным в реальных сценариях.

Наивный Байес решает эту проблему, делая предположение.

Наивный байесовский

Допущение - Каждая функция во входном векторе условно не зависит от других функций.

Математически.

В нем говорится, что A условно не зависит от B при условии C.

Чем это может помочь?

Числитель, то есть P (X1, X2,…., Xd | Y) * P (Y), эквивалентен совместной вероятностной модели и может быть выражен как P (X1, X2,…., Xd, Y). Затем мы можем развернуть его, используя условную вероятность.

Применяя предположение об условной независимости, его можно записать как

Следовательно, формула вероятности, использующая условную независимость, имеет вид

Преимущество состоит в том, что нам нужно найти только (2d + 2) значения при условии условной независимости, что значительно меньше по сравнению с 2 ^ (d + 2) (2 ^ (d + 1) для P (X1, X2, ……, Xd | Y) и 2 для P (Y)).

Если у нас есть два класса, мы можем получить вероятность класса Y для класса 1 P (Y = 1 | X) и класса 0 P (Y = 0 | X) с учетом точки запроса (X). Класс, присвоенный точке запроса, определяется на основе правила принятия решения MAP (максимум апостериорного), то есть класса с более высокой вероятностью при заданном X (P (Y | X)).

Пример

Учитывая такие особенности, как внешний вид, температура и ветер, спрогнозируйте, подходят ли условия для игры в теннис.

X = [погода, температура, ветрено]
Y = [Да, Нет]

Поскольку наивный байесовский метод следует условной независимости, мы вычислим P (Xi | Yj) для всех i в X и j в Y.

Рассчитаем таблицы правдоподобия.

Таблица 1

Outlook P (Outlook | класс) - прогноз может быть пасмурным, дождливым и солнечным, а класс - да и нет.

Таблица 2

Температура P (Температура | класс) - где температура может быть жаркой, умеренной или прохладной, а класс может быть да и нет.

Таблица 3

Windy P (Windy | class) - где Windy может быть сильным и слабым, а class может быть да и нет.

Приоры
P (класс = Да) = 9/14
P (класс = Нет) = 5/14

Итак, если у нас есть точка запроса, как вычислить, к какому классу она принадлежит?

Дана точка запроса X ’= [солнечный, прохладный, сильный]

Мы вычисляем P (класс = Да | X ’) и P (класс = Нет | X’)

P (X ’) - постоянный член, равный

Из таблицы правдоподобия получаем значения, необходимые в формуле

Поскольку вероятность класса «Нет» для X выше, чем для класса «Да» для X », точка запроса принадлежит классу « Нет ».

Преимущества

Наивный алгоритм Байеса также может выполнять мультиклассовую классификацию, сравнивая вероятность всех классов с учетом точки запроса.
Наивный байесовский алгоритм эффективен для больших наборов данных, так как сложность по времени и пространству меньше.
Сложность выполнения составляет O (d * c), где d - размерность вектора запроса, а c - общее количество классов. Сложность пространства также равна O (d * c), поскольку мы сохраняем только вероятность каждой особенности по отношению к классам, то есть P (Xd | Yc), где d - характеристика, а c - класс. Следовательно, общая комбинация равна (d * c).
Наивный Байес достаточно хорошо работает с задачами классификации текста, такими как фильтрация спама и классификация обзоров.

Существуют различные типы NB, такие как Gaussian Naïve Bayes, который хорошо работает с непрерывными данными, Multinomial Naïve Bayes для классификации текста с использованием частоты каждого слова в документе. . Другой тип - Bernoulli Naïve Bayes, который работает только в том случае, если функции принимают два значения (0 и 1), аналогичные значению в бинарной модели Bag of Words.

Вывод

Наивный Байес - это алгоритм классификации, который работает по теореме Байеса с условным предположением независимости. Он хорошо работает в реальных приложениях, которым требуется низкая задержка из-за небольшой временной и пространственной сложности.

Спасибо за чтение!