Введение

Машинное обучение под наблюдением бывает двух типов: 1) регрессия, 2) классификация.

В задаче регрессии речь идет о непрерывном типе данных, что означает, что прогнозируемое значение или целевое значение будет непрерывным по своей природе, но в задачах классификации мы в основном обращаться с целевым значением как с дискретным по своей природе, оно принадлежит какому-то классу.

Давайте сначала разберемся с некоторыми вариантами использования, а затем продолжим. Здесь я перечисляю некоторые области и соответствующие им вопросы, с которыми люди сталкиваются на регулярной основе, работая над алгоритмами машинного обучения.

ТелекоммуникацииВозможно ли, что клиент покинет сеть или нет?СтрахованиеБудет ли клиент продлевать страховкуБанковское делоДавать ли клиенту кредит или нетПроизводствоС отказом оборудования или нетЗдравоохранениеКакое заболевание у пациента

Ответом на эти вопросы является дискретный класс, число меток или классов может варьироваться от минимум двух, например, да или нет, правда или ложь, до многозначков, например, связаны ли новости машинного обучения с Финансовый домен может охватывать разные категории, такие как технологии, AI, ML и финансы, на самом деле это зависит от категорий, которые у нас есть, мы можем пометить новость в нескольких категориях, и это один из примеров мультилейбла классификация.

точно мы можем сказать, что классификация — это метод машинного обучения, при котором мы классифицируем данные на основе заданного количества классов. Алгоритмы классификации определяют классы, к которым будут относиться новые данные.

Терминология алгоритмов классификации:

  • Классификация бинарных классов. Этот тип классификации имеет дело с двумя возможными прогнозами: истинными или ложными, мужчинами или женщинами, да или нет.
  • Мультиклассовая классификация. Этот тип классификации имеет дело с более чем одним и двумя классами, но прогнозируемое значение или результат будет назначаться в отдельных классах из этих классов. Например, человека можно классифицировать на основе 10 заданных регионов, которые будут принадлежать только одному региону из 10 заданных регионов.
  • Многоуровневые классификации. Эти типы классификаций относятся к отображенному выходному значению, которое будет принадлежать более чем одному классу. Например, новостные статьи о спорте могут относиться к классу игрока, местоположению, игре и т. д.
  • Классификатор. Это алгоритм, который сопоставляет входные объекты с определенным классом.

Этапы алгоритмов классификации

Поскольку классификация является типом контролируемого машинного обучения, процедура будет такой же, как мы знаем о машинном обучении.

  1. Подготовка данных. На этом этапе мы занимаемся загрузкой данных, исследовательским анализом данных и т. д.
  2. Инициализировать: инициализировать используемый классификатор.
  3. Обучение классификатора. Мы сопоставляем обучающий набор данных с исследовательской переменной и целевой переменной, например, если мы используем обучение Scikit, мы используем .fit(X_train,y_train), где X — это комбинация объясняющих переменных и y является целевой переменной или меткой.
  4. Прогнозируйте целевое значение с помощью тестовых данных. На этом этапе мы используем результаты тестовых данных или невидимых данных. Например, в обучении Scikit мы используем .predict(X_test).
  5. Оценить: оценить модель классификатора.

Различные алгоритмы классификации

  • Логистическая регрессия:

Логистическая регрессия использует логистическую функцию, которая предсказывает вероятность принадлежности определенных выборок к определенному классу. Иногда ее также называют сигмовидной функцией из-за ее S-образной формы.

  • Наивный байесовский классификатор

Алгоритм наивного Байеса в основном основан на теореме Байеса. он предполагает, что все функции независимы друг от друга, что очень полезно при классификации документов, фильтрации спама и т. д.

  • К ближайших соседей

KNN также известен как ленивый ученик. Чтобы сделать прогноз новой точки данных, алгоритм находит ближайшую точку данных в обучающих наборах данных.

  • Дерево решений

Дерево решений в основном представляло собой древовидную структуру обучающих наборов данных, основанную на задании ряда вопросов. Дерево решений использует как для классификации, так и для регрессии.

  • Случайный лес

Случайный лес - это тип обучения ансамбля. Цель ансамблевого обучения состоит в том, чтобы объединить слабого ученика для создания более надежного и сильного ученика. Таким образом, мы можем сказать, что случайный лес — это совокупность деревьев.

  • Нейронная сеть

Нейронная сеть состоит из блоков (нейронов), расположенных слоями, которые преобразуют входной вектор в некоторый выходной. Каждая единица принимает входные данные, применяет к ним (часто нелинейную) функцию, а затем передает выходные данные следующему слою.

  • Стохастический градиентный спуск

Это очень полезно, когда у нас есть большие наборы данных, и очень эффективно подходит для линейной модели. Он поддерживает различные функции потерь.

  • Машина опорных векторов

Основное намерение машины опорных векторов состоит в том, чтобы максимизировать разрыв между классами. Поле определяется как разделяющие гиперплоскости и точки данных, которые очень близки к гиперплоскости, называемые опорными векторами.

Матрицы классификации

  • Точность. Точность определяет «Какой процент прогноза был верным?» (TP+TN)/TP+TN+FP+FN ,где TP= истинно положительный, TN= истинно отрицательный, FP= ложноположительный, FN= ложноотрицательный.
  • Истинный положительный показатель или отзыв. Отзыв определяет «Какой процент положительных случаев удалось обнаружить?» ЦП/(FN+ЦП).
  • Точность (точность): точность определяет «Какой процент положительных прогнозов был верным?» ЦП/(ЦП+ФП).
  • Оценка F1: определяет средневзвешенное значение точности и отзыва (2 x точность x отзыв)/(точность+отзыв).

Последнее примечание

Эта статья посвящена алгоритмам классификации в машинном обучении. Прежде чем начать эту статью, я хотел представить основную идею алгоритма классификации. Я подробно расскажу обо всех алгоритмах в следующих статьях.

Если вам понравилась эта статья, обязательно похлопайте по этой статье, и у вас есть какие-либо вопросы, связанные с этим ответом, я сделаю все возможное, чтобы ответить.

Ссылка на ссылку:

https://analyticsmitra.xyz/machinelearning/machine-learning-classification/