Оценка модели

Простейшей метрикой оценки моделей для моделей классификации является точность, это процент правильно предсказанных меток.

Однако точность не говорит вам всей картины. Даже в модели с очень высокой точностью могут возникнуть некоторые проблемы. Когда мы используем точность, мы присваиваем одинаковую стоимость ложноположительным и ложноотрицательным результатам. Когда этот набор данных несбалансирован — скажем, он содержит 95 % экземпляров в одном классе и только 5 % в другом — есть отличный способ снизить стоимость.

Давайте разберемся с этим с помощью матрицы путаницы. Матрица путаницы — это таблица, которая часто используется для описания производительности модели классификации (или «классификатора») на наборе тестовых данных, для которых известны истинные значения.

TP = confusion[0, 0]  # Actual - Cancer, Predicted - Cancer
FP = confusion[0, 1]  # Actual - Cancer, Predicted - No-Cancer
FN = confusion[1, 0]  # Actual - No-Cancer, Predicted - Cancer
TN = confusion[1, 1]  # Actual - No-Cancer, predicted - No-Cancer
Accuracy = (TP+TN)/Total Number of Predictions
Sensitivity/Recall = TP /(FN + TP)
Specificity = TN /(TN + FP)
Precision = TP /(TP + FP)
F1score = (2*Precision*Sensitivity)/(Precision+Sensitivity)

Если рассматривать приведенный выше случай, то точность будет равна 85%, вроде хорошая модель.

Но в этом случае более важно определить тех пациентов, которые действительно страдают раком, и для этого нам необходимо учитывать точность и отзыв. (Чувствительность) модели, а также F1-Score.

Precision-Recall – полезная мера успеха предсказания, когда классы очень несбалансированы. В информационном поиске точность – это мера релевантности результатов, а полнота – это показатель того, сколько действительно релевантных результатов возвращается. Оценка F1 – это среднее гармоническое между точностью и полнотой. Диапазон для F1 Score: [0, 1].

Точность в этом случае будет рассчитана как 66,67%, а отзыв или чувствительность будут рассчитаны как 50%, что очень мало, и подумайте о критичности, мы не может правильно предсказать приблизительно 33% пациентов, у которых есть рак.

Конечно, есть много других показателей для оценки систем бинарной классификации, и графики тоже очень полезны. Следует отметить, что вы не должны рассматривать какой-либо из них изолированно: не существует наилучшего способа оценить любую систему, а используются различные показатели. дать нам различную (и ценную) информацию о том, как модель классификации работает в зависимости от бизнес-проблемы.