В этой статье я собираюсь объяснить, что такое матрица путаницы и как ее интерпретировать.
Матрица путаницы — это матрица эффективности классификации, которая фактически работает с фактическими прогнозируемыми значениями. Матрица путаницы не работает с оценкой вероятности, поэтому для создания матрицы путаницы вам нужны фактические значения меток.
Давайте рассмотрим случай, когда у нас всего 100 точек данных; скажем, n=100. Из 100 точек данных 50 точек относятся к метке «Истина», скажем, P = 50, и 50 точек относятся к метке «Ложь», скажем, N = 50.
Предположим, что мы создали модель, которая предсказала значения для всех этих 100 точек, и вот матрица путаницы для того же самого.
Здесь много информации, давайте интерпретируем по порядку:
- Истинно отрицательный результат (TN):Истинно отрицательный результат — это те точки данных, где фактическая метка — «Ложь», а модель также спрогнозировала метку «Ложь». Модель средних правильно классифицировала эти точки данных, принадлежащие к отрицательному классу.
- Истинно положительный (TP): истинно положительный — это те точки данных, где фактическая метка «Истинна», а модель также спрогнозировала метку «Истина». Модель средних правильно классифицировала эти точки данных, которые принадлежат к положительному классу.
- Ложноотрицательный:Ложноотрицательный определяется, когда фактическая метка точки данных имеет значение «Истина», но модель спрогнозировала ее метку как «Ложь». Таким образом, упуская из виду реальные случаи
- Ложное срабатывание.Ложное срабатывание определяется, когда фактическая метка точки данных имеет значение «Ложь», но модель спрогнозировала ее метку как «Истинно». Тем самым подавая ложную тревогу.
Поскольку значение True Negative и True Positive в этом случае велико, мы можем считать это хорошей моделью.
Хорошая модель обычно имеет высокие значения TP и TN (диагональные значения).
Давайте теперь рассмотрим еще несколько концепций; ТПР, ТНР, ФПР, ФНР
- Уровень истинно положительных результатов (TPR): это соотношение истинно положительных результатов (TP) и общего количества положительных результатов (P).
- Истинный отрицательный показатель (TNR): это соотношение истинно отрицательного (TNR) и общего отрицательного (N)
- Ложноположительный показатель (FPR): это соотношение ложноположительных и общих отрицательных результатов (N).
- Ложноотрицательный показатель (FNR): это соотношение ложноотрицательного и общего положительного (P)
Основываясь на всех приведенных выше показателях, мы видим, что TPR и TNR выше, а FPR и FNR ниже, что является хорошим признаком хорошей модели.
Хотя у нас есть сбалансированные данные, модель не работает для отрицательных точек данных по сравнению с положительными точками данных, поскольку соотношение TNR ниже, чем TPR.
В случае многоклассовой классификации мы также должны попытаться получить высокое значение TP и TN, что означает, что все основные диагональные элементы должны иметь высокие значения, а все внедиагональные элементы должны иметь низкие значения.
Вывод. Чтобы определить, насколько хороша наша модель, мы можем получить все эти четыре скорости TPR, TNR, FPR, FNR и должны попытаться получить более высокие TPR и TNR. FPR и FNR должны быть ниже, однако это также зависит от другой области домена.
Спасибо за ваше время для чтения! :)