Всем привет,

Да, вы все прочитали правильно, сегодня мы собираемся разгадать тайну Матрицы путаницы, которую большинство из нас изначально находило очень сложной. Давайте углубимся в тему…

1. Что такое матрица неточностей?

Матрица путаницы, также известная как матрица ошибок, представляет собой особый макет таблицы, который позволяет визуализировать производительность алгоритма, обычно контролируемого обучения (при неконтролируемом обучении это обычно называется матрицей сопоставления). Каждая строка матрицы представляет экземпляры в прогнозируемом классе, а каждый столбец представляет экземпляры в фактическом классе, или наоборот. Название проистекает из того факта, что с его помощью легко увидеть, не путает ли система два класса (т. Е. Часто ошибочно маркируют один как другой). Это особый вид таблицы непредвиденных обстоятельств с двумя измерениями (фактическим и прогнозируемым) и идентичными наборами классов в обоих измерениях (каждая комбинация измерения и класса является переменной в таблице непредвиденных обстоятельств).

Знайте, что мы поняли, что такое матрица путаницы, давайте посмотрим на некоторые термины, связанные с ними. Для простоты рассмотрим двоичную классификацию, где 1 указывает положительный класс, а 0 указывает отрицательный класс.

Истинно-положительный:
Это результат, при котором модель правильно предсказывает положительный класс, что означает, что фактический положительный класс предсказывается как положительный.

Истинно отрицательный:
Это результат, при котором модель правильно предсказывает отрицательный класс, что означает, что фактический отрицательный класс предсказывается как отрицательный.

Ложно-положительный:
Это результат, когда модель неверно предсказывает отрицательный класс, что означает, что фактический отрицательный класс предсказывается как положительный.

Ложноотрицательный:
Это результат, когда модель неверно предсказывает положительный класс, что означает, что фактический положительный класс предсказывается как отрицательный.

Например, если заболевание является заболеванием, истинно положительный результат означает «правильно поставлен диагноз как заболевание», «ложноположительный результат» означает «неправильно диагностирован как заболевание», «истинно отрицательный» означает «правильно диагностирован как здоровый» и «ложноотрицательный». означает «неправильно диагностирован как здоровый».

Точность:
Он определяет количество положительных предсказаний класса, которые фактически принадлежат положительному классу. Это можно рассматривать как меру качества. Более высокая точность означает, что алгоритм возвращает больше релевантных результатов, чем нерелевантных, а высокий уровень отзыва означает, что алгоритм возвращает большинство релевантных результатов (независимо от того, возвращаются ли также нерелевантные результаты).

Точность:
Это доля истинных результатов от общего числа рассмотренных случаев. Точность определяется как близость измеренного значения к истинному значению. Это означает, что чем ближе измеренное значение к истинному значению, тем выше точность.

Точность - это насколько значение близко к его истинному значению. Примером может служить то, как близко стрелка приближается к центру мишени. Точность - это точность измерения. Примером может служить то, насколько близко вторая стрелка находится к первой (независимо от того, находится ли она рядом с отметкой).

Напомнить:
Он определяет количество положительных прогнозов класса, сделанных на основе всех положительных примеров в наборе данных. Напоминание - это соотношение правильных прогнозов и общего количества правильных элементов в наборе. Он выражается в% от общего числа правильных (положительных) элементов, правильно спрогнозированных моделью. Другими словами, отзыв показывает, насколько хороша модель в выборе правильных элементов.

F-Measure:
Он предоставляет единую оценку, которая уравновешивает как точность, так и отзывчивость в одном числе. Оценка F1 объединяет точность и отзывчивость классификатора в единую метрику, взяв их среднее гармоническое значение. Он в основном используется для сравнения производительности классификаторов.

Точность можно рассматривать как меру качества, а отзыв как меру количества. Более высокая точность означает, что алгоритм возвращает больше релевантных результатов, чем нерелевантных, а высокий уровень отзыва означает, что алгоритм возвращает большинство релевантных результатов (независимо от того, возвращаются ли также нерелевантные результаты).

2. Есть ли у нас какие-либо параметры для управления матрицей?

Поскольку все классификаторы машинного обучения вычисляют вероятность каждой метки класса, становится важным преобразовать их в дискретные значения, чтобы иметь возможность вычислить матрицу путаницы. Чтобы решить эту проблему, мы устанавливаем параметр, называемый порогом.

В двоичном формате у нас есть классы 0 или 1, а порог для набора данных сбалансированной двоичной классификации обычно составляет 0,5. В то время как в мультиклассе может быть 3 сбалансированных класса, для которых нам требуется 2 пороговых значения, которые могут быть 0,33 и 0,66. Но возникает вопрос, используя какой метод мы вычисляем порог и приближаемся к мультиклассовой классификации?

Есть два подхода к решению этой проблемы. Они объясняются следующим образом:

2.1 Один против остальных (OvR). Здесь один класс считается положительным, а все остальные - отрицательными, а затем мы генерируем n-классификаторы. Предположим, что в наборе данных есть 3 класса, поэтому в этом подходе он обучает 3-классификатора, принимая один класс за раз как положительный, а остальные два класса как отрицательные. Теперь каждый классификатор предсказывает вероятность определенного класса, и класс с наибольшей вероятностью является ответом.

2.2 Один против одного (OvO) - при этом подходе генерируется n ∗ (n - 1) ⁄2 моделей бинарного классификатора. Здесь каждый классификатор предсказывает одну метку класса. После того, как мы вводим тестовые данные в классификатор, в качестве ответа выбирается класс, который был предсказан больше всего.

Я надеюсь, что к настоящему времени все согласятся с моим, что матрица путаницы больше не сбивает с толку. Для получения дополнительных интересных тем о науке о данных, не стесняйтесь подключаться:

Github: https://github.com/Akilankm
Linkedin: https://www.linkedin.com/in/akilankm/
Kaggle: https: //www.kaggle. com / akilankm