После решения задач машинного обучения нам нужно измерить производительность модели, и для этого есть 6 показателей:

  • Матрица путаницы
  • Точность
  • Отзывать
  • Точность
  • F1 - Счет
  • Граничный график решения

Матрица путаницы

Это таблица, которая используется для описания производительности модели классификации
на наборе тестовых данных, для которых известны истинные значения. Благодаря этому
можно визуализировать работу алгоритма. Это позволяет легко
выявить путаницу между классами, например. один класс обычно ошибочно называют другим. Большая часть оценки производительности выполняется на основе матрицы путаницы.
Она состоит из сводки результатов прогнозирования задачи классификации. Количество
правильных и неправильных прогнозов суммируется с числовыми значениями. Матрица путаницы показывает, как ваша модель классификации путается при прогнозировании.
Она дает нам представление не только об ошибках, допускаемых классификатором, но, что более важно, о типах совершаемых ошибок.

Определение терминов:-

Положительный (P): Наблюдение положительное (например, апельсин).
Отрицательное (N): Наблюдение не положительное (например, не апельсин).

Истинно положительный (TP): результат наблюдения положительный и прогнозируется положительный.
Ложноотрицательный (FN): результат положительный, но прогнозируется отрицательный.
Истинно отрицательный (TN): результат наблюдения отрицательный и прогнозируется отрицательный.
Ложноположительный результат (FP): результат наблюдения отрицательный, но прогнозируется положительный.

Точность

Точность — это просто отношение правильно предсказанного наблюдения к общему количеству
наблюдений. Если точность высокая, то модель лучше. Точность — отличная
мера, но только в том случае, если набор данных симметричен, когда значения ложноположительных
и ложноотрицательных значений почти одинаковы. Таким образом, вам нужно смотреть на другие
параметры, чтобы оценить производительность вашей модели.

Отзывать

Припоминание определяется как отношение общего количества правильно классифицированных положительных примеров к общему количеству положительных примеров. High Recall указывает на то, что класс распознан правильно (небольшое количество FN).

Точность

Чтобы получить значение точности, мы делим общее количество правильно классифицированных положительных примеров на общее количество предсказанных положительных примеров. Высокая точность указывает, что пример, помеченный как положительный, действительно положительный (небольшое количество FP).

Высокая полнота, низкая точность.
Это означает, что большинство положительных примеров распознаются правильно, но
ложноположительные результаты велики.
Низкая полнота, высокая точность :-
Это показывает, что многие положительные примеры пропущены, но предсказанные положительные
действительно положительные.

F1-счет

Поскольку у нас есть две меры (точность и полнота), полезно иметь измерение, которое представляет их обе. Мы рассчитываем F-меру, которая использует среднее гармоническое вместо среднего арифметического, так как оно больше наказывает крайние значения.

Граничный график решения

В задачах классификации предсказание конкретного класса связано с
несколькими классами.
Другими словами, это также может быть оформлено таким образом, что конкретный экземпляр должен храниться в определенном регионе и должен быть отделен от других регионов. Это отделение от других регионов можно увидеть по границе, известной как граница принятия решения. Эта визуализация границы решения в пространстве признаков выполняется на точечной диаграмме, где каждая точка изображает точку данных набора данных, а оси изображают функции.
Граница решения разделяет точки данных на области, которые являются
на самом деле классами, к которым они принадлежат.

Например. Граничный график решения линейно разделимых данных для алгоритма KNN:

Это все для измерения производительности. В следующем рассказе будет кое-что еще о других алгоритмах классификации.