Ритик Саху

В мире, полном машинного обучения и искусственного интеллекта, окружающего почти все вокруг нас, классификация и прогнозирование являются одним из наиболее важных аспектов машинного обучения. Итак, ребята, сегодня я, Ритик Саху, приветствую вас всех в этом блоге на Наивный байесовский классификатор. Итак, прежде чем двигаться дальше, давайте быстро взглянем на повестку дня.

Мы поймем:

Что такое Наивный Байес

Теорема Байеса и варианты ее промышленного использования

Пошаговое программирование наивного Байеса

Наивный Байес — это простой, но удивительно мощный алгоритм императивного анализа. Это метод классификации, основанный на теореме Байеса с предположением о независимости среди предикторов. Он состоит из двух Наивных частей и Байеса. Проще говоря, наивный байесовский классификатор предполагает наличие определенного признак в классе не связан с наличием какого-либо другого признака, даже если эти признаки зависят друг от друга или от существования других признаков, все эти свойства независимо влияют на вероятность того, является ли фрукт яблоком, апельсином или бананом вот почему он известен как наивный.

Давайте рассмотрим пример, чтобы понять теорему Байеса, поэтому предположим, что у меня есть колода карт, и если из колоды игральных карт вытянута одна карта, вероятность того, что эта карта является королем, составляет 4 на 52, поскольку в стандартной колоде 4 короля. из 52 карт теперь, если король является событием, эта карта является королем, вероятность короля определяется как 4 на 52, что равно 1 на 13

теперь, если предоставлено доказательство, например, кто-то смотрит как карта, что единственная карта является лицевой картой, вероятность короля, учитывая, что ее лицо может быть рассчитано с использованием базовой теоремы по формуле теперь, поскольку каждый король также является лицевой картой, вероятность лица, учитывая, что это король, равно 1, и поскольку в каждой масти есть 3 лицевых карты, то есть валет, король и королева, вероятность лицевой карты равна 12 на 52, то есть 3 на 30, теперь с использованием теоремы Байеса мы можно узнать вероятность Короля, учитывая, что это лицо, поэтому наш окончательный ответ будет 1 на 3.

Давайте посмотрим, где он используется в промышленности сейчас:

Категоризация новостей: новости в Интернете быстро растут в эпоху информационной эпохи, когда каждый новый сайт имеет свой собственный макет и категоризацию для группировки новостей. Теперь эти неоднородности макета и категоризации не всегда могут удовлетворить потребности отдельных пользователей, поэтому удаление этих неоднородностей и классификация новостных статей в соответствии с предпочтениями пользователя является сложной задачей. Компании используют веб-краулер для извлечения полезного текста из HTML-страниц. Новостные статьи и каждая из этих новостных статей затем токенизируются. новости сейчас, чтобы достичь лучшего классического результата, мы удаляем менее значимые слова, которые являются стоп-словами из документов или статей, а затем мы применяем наивный байесовский классификатор для классификации содержания новостей на основе кода новости.

Фильтрация спама. Наивный байесовский классификатор — это популярный статистический метод фильтрации электронной почты. Обычно он использует набор слов для идентификации спама. использование токенов, но спам и не спамовые электронные письма, а затем теорема Байеса используется для расчета вероятности того, что электронное письмо является или не является спамом.

Наконец, мы рассмотрим реализацию гауссовского наивного байесовского классификатора с использованием scikit-learn шаг за шагом:

Вывод:

Gaussian Naive Bayes model accuracy(in %): 95.0

Вывод. Алгоритмы Наивного Байеса в основном используются для анализа тональности, фильтрации спама, систем рекомендаций и т. д. Они быстры и просты в реализации, но их самым большим недостатком является необходимость предикторы должны быть независимыми.

Ссылки: