Все, что вам нужно для оценки моделей классификации

Классификационные модели широко используются в различных сценариях. В этой статье будут обсуждаться не только точность или оценка f1, но также упомянуты оценки KS и Kappa. Ниже приведены 7 различных методов оценки. Давайте углубимся в них!

Точность
Точность
Отзывать
F1
AUC-ROC
KS
Каппа оценка

Точность

Точность заключается в подсчете процента верных прогнозов. Вообще говоря, его можно использовать в большинстве случаев.

Однако, когда цели сверхбалансированы, использование точности неверно. Например, при обнаружении мошенничества 99,99% транзакций являются хорошими и только 0,01% - плохими. Если мы просто предположим, что 100% пользователей являются хорошими, точность может составить 99,9%, что означает, что точность не является хорошим показателем для оценки производительности.

Точность

Точность также известна как положительная прогностическая ценность и специфичность. Способ вычисления точности следующий.

Если есть 3 положительных результата («1») в прогнозе и 2 из них правильные (Истинно положительный или TP), точность составляет 66,6% (2/3). Здесь, независимо от того, сколько 0 является правильным или неправильным, они не повлияют на точность.

Отзывать

Точно так же отзыв определяется как «часть успешно извлеченных релевантных документов», и он также известен как конфиденциальность.

Например, 10 меток (основная истина) являются положительными («1»), а 3 из них прогнозируются как положительные, тогда отзыв составляет 30%. Вариант использования может быть в больницах, врачи больше заботятся о том, будут ли диагностированы все потенциальные случаи COVID-19. Даже в некоторых случаях ложноположительный результат (FP) не так важен, потому что есть 2-й или 3-й раунды тестирования.

Заметить, что отзыв и точность могут использоваться не только в задачах двоичной классификации. Их также можно использовать в многоклассовом моделировании, которое будет подробно обсуждаться в будущем. Вы также можете быстро проверить, как это сделать, в scikit-learn [щелкните здесь].

F1

Как отзыв, так и точность обсуждаются выше. F-мера - это способ заботиться об обоих из двух показателей. Формула следующая:

Если отзыв и точность одинаково важны, F1 будет использоваться следующим образом.

AUC-ROC

AUC-ROC означает «Площадь под кривой ROC». Он предназначен для измерения моделей классификации с помощью различных пороговых значений (порог по умолчанию - 0,5). Диапазон значений от 0 до 1. В частности, термины, используемые в формуле, перечислены ниже.

TN: истинно отрицательный

TP: истинно положительный

FN: ложноотрицательный

FP: ложноположительный

TPR (истинно положительная ставка) = отзыв = TP / (TP + FN)

FPR (ложноположительная скорость) = 1- точность = FP / (FP + TN)

KS

KS (критерий Колмогорова – Смирнова) - это оценочная метрика для сравнения, принадлежат ли две выборки к одному и тому же распределению или нет. Также KS широко используется для управления рисками и выявления мошенничества в банковской сфере.

На графике KS можно интерпретировать как максимальную маржу для 2 классов (красная и синяя линии представляют совокупную вероятность двух классов). Если запас достаточно велик, мы можем сказать, что модель классификации может довольно хорошо различать два класса.

Каппа оценка

Оценка Каппа предназначена для измерения междиапазонной надежности. Другими словами, мы хотим знать «реальную точность» и снизить уровень неопределенности. Например, если существует 2 класса и соотношение двух классов одинаково, высока вероятность получить правильный ответ путем случайного предположения. В том же случае, если имеется более 10 классов, относительно сложно получить правильный ответ путем случайного предположения.

В приведенной выше формуле Po - наблюдаемое согласие, а Pe - гипотетическая вероятность случайного согласия. Все еще не представляете, как это работает? Давайте посмотрим на пример. Po (75%) - это то же самое, что и точность. Затем нам нужно рассчитать, насколько нам повезло, что мы правильно получили Y (35/60) и N (25/60) (мы также можем понимать это как уровень сложности).

На практике нам не нужно вручную рассчитывать показатель Каппа шаг за шагом. Вместо этого мы можем напрямую импортировать cohen_kappa_score из sklearn.