В этой статье я объясню, что такое матрица путаницы и как вы можете использовать ее для проверки производительности ваших алгоритмов классификации машинного обучения. В конце этой статьи я покажу несколько ссылок, если вы хотите узнать больше о матрице путаницы.

Что такое матрица путаницы?

Матрица путаницы — это ценная таблица для проверки производительности алгоритмов классификации машинного обучения путем сравнения прогнозируемых результатов с фактическими результатами из тестового набора данных. Эта таблица имеет размерность NxN, где N — количество классифицированных категорий.
На изображении ниже показан пример матрицы путаницы для бинарной классификации (размер 2x2), самой простой матрицы путаницы, которую вы можете найти, с 1000 тестовых образцов. Несмотря на то, что это простейшая матрица путаницы, концепции могут быть обобщены на матрицы NxN.

В матрице путаницы, как показано выше, для описания результатов прогнозирования используются четыре термина:
- Истинно положительный (TP):имя дается, когда и предсказанные, и фактические классы являются положительными.
- Истинно отрицательный (TN): имя дается, когда и прогнозируемый, и фактический классы являются отрицательными.
- Ложно отрицательный (FN): имя дается, когда прогнозируемый класс отрицательный, но фактический класс положительный.
- Ложное срабатывание (FP): имя дается, когда прогнозируемый класс положительный, но фактический класс отрицательно.

Основываясь на этой терминологии, мы можем получить интересные показатели производительности наших моделей классификации, такие как точность, достоверность, полнота и F1-Score.

  • Точность измеряет процент правильных прогнозов модели. Он рассчитывается как сумма истинно отрицательных и истинно положительных результатов, деленная на общее количество образцов.

  • Точность измеряет процент образцов, предсказанных как положительные, которые на самом деле являются положительными. Он рассчитывается как деление истинного положительного результата на сумму истинно положительного и ложноположительного результата.

  • Отзыв измеряет процент фактических положительных образцов, предсказанных как положительные. Он рассчитывается как деление истинного положительного результата на сумму ложноотрицательного и истинно положительного.

Оценка F1 (или F-оценка) измеряет гармоническое среднее точности и полноты.

Какой показатель лучше всего подходит для оценки моей модели?

  • Точность предпочтительнее, когда целью модели является максимизация истинно положительного значения и минимизация ложноположительного значения. Например, когда цель модели состоит в том, чтобы классифицировать спам-сообщения как положительные, стремясь свести к минимуму ошибочную классификацию сообщений, не являющихся спамом.
  • Отзыв предпочтительнее, когда цель модели состоит в том, чтобы идентифицировать как можно больше фактических положительных образцов, потому что это критическая ситуация, например, идентификация рака.
  • Точность предпочтительнее, когда целью модели является правильная классификация как можно большего количества образцов. Этот показатель интересен, когда набор данных не является несбалансированным (вы можете узнать больше о несбалансированных наборах данных в разделе «Аналитика Видхья — 5 методов обработки несбалансированных данных для решения задачи классификации»).
  • Оценка F1 предпочтительнее, когда для модели важны как точность, так и полнота.

Чтобы узнать больше о матрице путаницы, я предлагаю перейти по следующим ссылкам: