Что такое матрица путаницы

В этой статье я собираюсь объяснить, что такое матрица путаницы и как ее интерпретировать.

Матрица путаницы — это матрица эффективности классификации, которая фактически работает с фактическими прогнозируемыми значениями. Матрица путаницы не работает с оценкой вероятности, поэтому для создания матрицы путаницы вам нужны фактические значения меток.

Давайте рассмотрим случай, когда у нас всего 100 точек данных; скажем, n=100. Из 100 точек данных 50 точек относятся к метке «Истина», скажем, P = 50, и 50 точек относятся к метке «Ложь», скажем, N = 50.

Предположим, что мы создали модель, которая предсказала значения для всех этих 100 точек, и вот матрица путаницы для того же самого.

Здесь много информации, давайте интерпретируем по порядку:

Истинно отрицательный результат (TN):Истинно отрицательный результат — это те точки данных, где фактическая метка — «Ложь», а модель также спрогнозировала метку «Ложь». Модель средних правильно классифицировала эти точки данных, принадлежащие к отрицательному классу.
Истинно положительный (TP): истинно положительный — это те точки данных, где фактическая метка «Истинна», а модель также спрогнозировала метку «Истина». Модель средних правильно классифицировала эти точки данных, которые принадлежат к положительному классу.
Ложноотрицательный:Ложноотрицательный определяется, когда фактическая метка точки данных имеет значение «Истина», но модель спрогнозировала ее метку как «Ложь». Таким образом, упуская из виду реальные случаи
Ложное срабатывание.Ложное срабатывание определяется, когда фактическая метка точки данных имеет значение «Ложь», но модель спрогнозировала ее метку как «Истинно». Тем самым подавая ложную тревогу.

Поскольку значение True Negative и True Positive в этом случае велико, мы можем считать это хорошей моделью.

Хорошая модель обычно имеет высокие значения TP и TN (диагональные значения).

Давайте теперь рассмотрим еще несколько концепций; ТПР, ТНР, ФПР, ФНР

Уровень истинно положительных результатов (TPR): это соотношение истинно положительных результатов (TP) и общего количества положительных результатов (P).

Истинный отрицательный показатель (TNR): это соотношение истинно отрицательного (TNR) и общего отрицательного (N)

Ложноположительный показатель (FPR): это соотношение ложноположительных и общих отрицательных результатов (N).

Ложноотрицательный показатель (FNR): это соотношение ложноотрицательного и общего положительного (P)

Основываясь на всех приведенных выше показателях, мы видим, что TPR и TNR выше, а FPR и FNR ниже, что является хорошим признаком хорошей модели.

Хотя у нас есть сбалансированные данные, модель не работает для отрицательных точек данных по сравнению с положительными точками данных, поскольку соотношение TNR ниже, чем TPR.

В случае многоклассовой классификации мы также должны попытаться получить высокое значение TP и TN, что означает, что все основные диагональные элементы должны иметь высокие значения, а все внедиагональные элементы должны иметь низкие значения.

Вывод. Чтобы определить, насколько хороша наша модель, мы можем получить все эти четыре скорости TPR, TNR, FPR, FNR и должны попытаться получить более высокие TPR и TNR. FPR и FNR должны быть ниже, однако это также зависит от другой области домена.

Спасибо за ваше время для чтения! :)

Что такое матрица путаницы

Вопросы по теме