В этой статье я собираюсь объяснить, что такое матрица путаницы и как ее интерпретировать.

Матрица путаницы — это матрица эффективности классификации, которая фактически работает с фактическими прогнозируемыми значениями. Матрица путаницы не работает с оценкой вероятности, поэтому для создания матрицы путаницы вам нужны фактические значения меток.

Давайте рассмотрим случай, когда у нас всего 100 точек данных; скажем, n=100. Из 100 точек данных 50 точек относятся к метке «Истина», скажем, P = 50, и 50 точек относятся к метке «Ложь», скажем, N = 50.

Предположим, что мы создали модель, которая предсказала значения для всех этих 100 точек, и вот матрица путаницы для того же самого.

Здесь много информации, давайте интерпретируем по порядку:

  • Истинно отрицательный результат (TN):Истинно отрицательный результат — это те точки данных, где фактическая метка — «Ложь», а модель также спрогнозировала метку «Ложь». Модель средних правильно классифицировала эти точки данных, принадлежащие к отрицательному классу.
  • Истинно положительный (TP): истинно положительный — это те точки данных, где фактическая метка «Истинна», а модель также спрогнозировала метку «Истина». Модель средних правильно классифицировала эти точки данных, которые принадлежат к положительному классу.
  • Ложноотрицательный:Ложноотрицательный определяется, когда фактическая метка точки данных имеет значение «Истина», но модель спрогнозировала ее метку как «Ложь». Таким образом, упуская из виду реальные случаи
  • Ложное срабатывание.Ложное срабатывание определяется, когда фактическая метка точки данных имеет значение «Ложь», но модель спрогнозировала ее метку как «Истинно». Тем самым подавая ложную тревогу.

Поскольку значение True Negative и True Positive в этом случае велико, мы можем считать это хорошей моделью.

Хорошая модель обычно имеет высокие значения TP и TN (диагональные значения).

Давайте теперь рассмотрим еще несколько концепций; ТПР, ТНР, ФПР, ФНР

  • Уровень истинно положительных результатов (TPR): это соотношение истинно положительных результатов (TP) и общего количества положительных результатов (P).

  • Истинный отрицательный показатель (TNR): это соотношение истинно отрицательного (TNR) и общего отрицательного (N)

  • Ложноположительный показатель (FPR): это соотношение ложноположительных и общих отрицательных результатов (N).

  • Ложноотрицательный показатель (FNR): это соотношение ложноотрицательного и общего положительного (P)

Основываясь на всех приведенных выше показателях, мы видим, что TPR и TNR выше, а FPR и FNR ниже, что является хорошим признаком хорошей модели.

Хотя у нас есть сбалансированные данные, модель не работает для отрицательных точек данных по сравнению с положительными точками данных, поскольку соотношение TNR ниже, чем TPR.

В случае многоклассовой классификации мы также должны попытаться получить высокое значение TP и TN, что означает, что все основные диагональные элементы должны иметь высокие значения, а все внедиагональные элементы должны иметь низкие значения.

Вывод. Чтобы определить, насколько хороша наша модель, мы можем получить все эти четыре скорости TPR, TNR, FPR, FNR и должны попытаться получить более высокие TPR и TNR. FPR и FNR должны быть ниже, однако это также зависит от другой области домена.

Спасибо за ваше время для чтения! :)