Метрики используются для оценки производительности алгоритмов машинного обучения, классификации, а также алгоритмов регрессии. Мы должны тщательно выбирать метрики, потому что измерение производительности алгоритмов машинного обучения будет полностью зависеть от выбранной нами метрики.

Показатели производительности для классификации

Матрица путаницы

Он используется в задаче классификации для установления связи между прогнозируемыми значениями и фактическими значениями. Он показывает, сколько значений предсказано правильно и сколько неверно предсказано для каждого класса. Мы можем вывести различные типы метрик, которые покажут, насколько хорошо подходит наша модель.

Для набора балансовых данных

1. Точность

Когда набор данных сбалансирован, мы используем Точность. Точность показывает процентное значение общего правильно предсказанного значения от общего значения.

Для несбалансированного набора данных мы не можем использовать точность, так как это может не дать хорошего результата.

Например: из 100 значений, если TP = 90 TN = 0, точность по-прежнему будет 90%, что звучит хорошо, но не потому, что TN не определяется правильно, а вывод больше смещен в сторону TP.

Для набора данных дисбаланса

1. Точность

Сколько из всех прогнозированных положительных значений предсказано правильно.

Точность используется, когда ложное срабатывание более важно, например, при обнаружении спама, если письмо не является спамом, а модель предсказала его как спам, мы пропустим очень важное письмо из-за этой ошибки.

2. Отзыв или чувствительность

Сколько из всех фактических положительных значений предсказано правильно. Он также известен как Истинно положительный показатель (TPR).

Точность используется, когда ложноотрицательный результат более важен, например, у пациента есть ковид-положительный результат, но модель определила его как отрицательный, что окажет большое влияние на здравоохранение. Если у пациента нет COVID-положительного результата, мы можем провести дальнейшее тестирование, но наоборот не должно происходить.

3. Специфика

Сколько из всех фактических отрицательных значений предсказано правильно. Коэффициент ложных срабатываний (FPR)=1 – специфичность

4. Бета-оценка F

Он показывает взаимосвязь между точностью и отзывом.

Когда F=1, F1 будет средним гармоническим значением точности и полноты, т.е. 2*pr*re/(pr+re)

Если для нас важнее Точность, поставьте F>1, а если для нас важнее Отзыв, поставьте F‹1.

Кривая ROC и AUC

Нам нужно попробовать разные пороговые значения, чтобы получить наилучшее значение TPR и FPR. Мы не можем попробовать все значения вручную. Для этого мы используем кривую ROC и AUC.

Мы можем попробовать разные значения TPR и FPR, а также попробовать другой алгоритм, чтобы найти наилучшее соответствие нашим данным. Модель, которая соответствует большему количеству данных под кривой, считается лучшей моделью.

Показатели производительности для задач регрессии

Для регрессии проблемные метрики сравнительно просты для понимания.

1. Средняя абсолютная ошибка (MAE)

В основном это сумма среднего значения абсолютной разницы между прогнозируемыми и фактическими значениями.

2. Среднеквадратическая ошибка (MSE)

MSE похож на MAE, но единственное отличие состоит в том, что он возводит в квадрат разницу фактических и прогнозируемых выходных значений перед их суммированием, а не использует абсолютное значение.

Я делюсь ссылками для сброса двух показателей, т. е. R-Squared и Adjusted R-Squared. Я объяснил их более подробно.

3. Р-квадрат

4. Скорректированный R-квадрат

Заключительные мысли

Метрики очень важны для понимания, поскольку они говорят нам о производительности нашей модели. Они также могут ввести нас в заблуждение, если их использовать неправильно. Нам нужно понять данные и выбрать показатель, который лучше всего подходит для нашей модели.