Основы:

Допустим, кто-то подходит к вам и говорит:

«Хочешь сыграть в игру? У меня в этой сумке либо футбольный мяч, либо баскетбольный мяч. У моего шара есть линии, пятиугольники, и он черный и белый. Можете сказать, какой у меня мяч? »

Что бы вы ответили? Если бы вы сказали футбольный мяч, я бы не удивился. Давайте копнем немного глубже; Разберем наш подход.

Чтобы прийти к ответу, мы используем вероятности (является ли объект футбольным или баскетбольным мячом), которые предполагает каждая часть информации. Все эти вычисленные вероятности приводят к нашему окончательному решению, что это действительно футбольный мяч.

По сути, именно так работает наивный байесовский (nai · eev beiz) классификатор. Классификатор - это модель контролируемого обучения, которая сопоставляет входные данные с дискретными / категориальными выходными данными. Наивные байесовские классификаторы можно использовать для классификации множества вещей, таких как спам и даже рак груди!

В этой статье мы поговорим больше о наивной байесовской классификации и более подробно рассмотрим, как работает классификатор.

Важные понятия; Объяснение того, как «наивный» и «байесовский» укладываются в наивный байесовский термин;

Условная независимость: (объясняя «наивность»)

«Наивная» часть Наивного Байеса исходит из того, что модель сохраняет условную независимость.



Условная независимость - важный термин при обсуждении наивного Байеса. Это относится к тому, как два или более событий (A, B) при другом событии (C) независимы. Другими словами, если бы я сказал вам, что произошли C и A, вы не сможете сделать вывод, произошло ли B. Точно так же, если бы я сказал вам, что произошли C и B, вы не сможете определить, произошло ли A.

A и B условно независимы, если:

Pr (A ∩ B | C) = Pr (A | C) Pr (B | C)

A ∩ B = A пересекает B

А | B = A для данного B

pr () = вероятность

Теорема Байеса: (объясняя «байесовский»)

«Байес» в наивных байесовских классификаторах исходит из теоремы Байеса, основной части того, как функционирует классификатор! Так что это?

Теорема Байеса - это вероятностная теорема, которая исследует условную вероятность события. Условная вероятность - это вероятность события (А) с учетом другого события или событий. (B) Проще говоря, теорема Байеса - это всего лишь метод определения вероятности события с учетом наступления другого события или событий.

Математически это можно выразить как:

A = событие

B = событие (я)

P (A), P (B) = вероятность A, вероятность B

P (B | A) = вероятность B при A

P (A | B) = вероятность A для данного B

Ссылаясь на наивную байесовскую классификацию, A и B также можно обозначать, соответственно, как y и X.

Пример, иллюстрирующий использование теоремы Байеса, - это определение вероятности того, что есть хорошая погода, учитывая, что вы идете на прогулку, где (A) означает хорошую погоду, а (B) означает ходьбу.

Как это работает:

Наивные байесовские классификаторы используют теорему Байеса для классификации данных.

Однако используемая функция переписана для соответствия различным типам ввода. (Например, логические, дискретные и непрерывные данные)

Наивные байесовские классификаторы заменяют P (A), P (B) и P (B | A), используя данные обучения в качестве ссылки.

Таким образом, модель может оценить вероятность классов (A) с учетом ковариат. (B) Таким образом, наивные байесовские классификаторы могут вывести наиболее вероятный класс, классифицируя данные.

Важно отметить, что на протяжении всего процесса наивные байесовские классификаторы предполагают условную независимость своих предикторов. Это уместно, потому что, если бы наивные байесовские классификаторы анализировали отношения между предикторами, им пришлось бы вычислять вероятность конкретного появления ковариат и класса. Точная комбинация нескольких предикторов и класса может быть минимальной, что приведет к плохо подобранной модели. Для классификации огромных многомерных наборов данных возможно, что конкретная комбинация ковариат и класса даже не возникнет. В этом случае наивные байесовские классификаторы не смогут выполнить классификацию из-за своей неспособности вычислять нулевые значения.

За и против:

Плюсы:

  • Наивные байесовские классификаторы быстро классифицируются из-за относительной невысокой сложности (процесса).
  • Наивным байесовским классификаторам требуется меньше данных для обучения функционирующей модели (если ковариаты поддерживают определенную степень условной независимости)
  • Наивные байесовские классификаторы хорошо работают с дискретными данными и могут эффективно применяться для мультиклассовой классификации.

Минусы:

  • Если категориальный тип предиктора был в обучающих данных, но не в тестировании, будет дана нулевая вероятность, которая предотвратит классификацию модели. Это известно как нулевая частота или нулевой коэффициент. Когда возникает эта проблема, мы можем использовать методы сглаживания, такие как оценка Лапласа.
  • Наивный Байес предполагает условную независимость всех его предикторов. Однако в реальном мире ковариаты часто связаны друг с другом. Таким образом, наивный байесовский классификатор не использует всю потенциальную информацию, которую могут предложить данные.

Приложения:

Наивный байесовский метод в основном применяется к:

  • Классификация в реальном времени - скорость Наивного Байеса позволяет ему классифицировать вещи в реальном времени.
  • классификация текста - Наивный байесовский метод хорошо работает при многоклассовой классификации. Таким образом, он отлично подходит для классификации текста. Обычно он используется для идентификации спама, а не спама.

TL;DR:

  • Наивные байесовские классификаторы используются для одномерной и многомерной классификации дискретных и непрерывных предикторов.
  • Теорема Байеса определяет условную вероятность события
  • Наивные байесовские классификаторы предполагают условную независимость
  • Наивные байесовские классификаторы используют теорему Байеса, чтобы найти наиболее вероятный класс с учетом определенных ковариат.
  • Наивный байесовский метод может быть применен к классификации в реальном времени и классификации текста благодаря его скорости и мастерству в многоклассовой классификации.

Надеюсь, вам понравилась эта статья. Спасибо за внимание!

Не стесняйтесь обращаться ко мне по электронной почте: [email protected]

Получите доступ к экспертному обзору - Подпишитесь на DDI Intel