Оценка модели
Простейшей метрикой оценки моделей для моделей классификации является точность, это процент правильно предсказанных меток.
Однако точность не говорит вам всей картины. Даже в модели с очень высокой точностью могут возникнуть некоторые проблемы. Когда мы используем точность, мы присваиваем одинаковую стоимость ложноположительным и ложноотрицательным результатам. Когда этот набор данных несбалансирован — скажем, он содержит 95 % экземпляров в одном классе и только 5 % в другом — есть отличный способ снизить стоимость.
Давайте разберемся с этим с помощью матрицы путаницы. Матрица путаницы — это таблица, которая часто используется для описания производительности модели классификации (или «классификатора») на наборе тестовых данных, для которых известны истинные значения.
TP = confusion[0, 0] # Actual - Cancer, Predicted - Cancer FP = confusion[0, 1] # Actual - Cancer, Predicted - No-Cancer FN = confusion[1, 0] # Actual - No-Cancer, Predicted - Cancer TN = confusion[1, 1] # Actual - No-Cancer, predicted - No-Cancer Accuracy = (TP+TN)/Total Number of Predictions Sensitivity/Recall = TP /(FN + TP) Specificity = TN /(TN + FP) Precision = TP /(TP + FP) F1score = (2*Precision*Sensitivity)/(Precision+Sensitivity)
Если рассматривать приведенный выше случай, то точность будет равна 85%, вроде хорошая модель.
Но в этом случае более важно определить тех пациентов, которые действительно страдают раком, и для этого нам необходимо учитывать точность и отзыв. (Чувствительность) модели, а также F1-Score.
Precision-Recall – полезная мера успеха предсказания, когда классы очень несбалансированы. В информационном поиске точность – это мера релевантности результатов, а полнота – это показатель того, сколько действительно релевантных результатов возвращается. Оценка F1 – это среднее гармоническое между точностью и полнотой. Диапазон для F1 Score: [0, 1].
Точность в этом случае будет рассчитана как 66,67%, а отзыв или чувствительность будут рассчитаны как 50%, что очень мало, и подумайте о критичности, мы не может правильно предсказать приблизительно 33% пациентов, у которых есть рак.
Конечно, есть много других показателей для оценки систем бинарной классификации, и графики тоже очень полезны. Следует отметить, что вы не должны рассматривать какой-либо из них изолированно: не существует наилучшего способа оценить любую систему, а используются различные показатели. дать нам различную (и ценную) информацию о том, как модель классификации работает в зависимости от бизнес-проблемы.