Когда дело доходит до оценки производительности вашей модели, существуют различные скалярные метрики. Применительно к реальному миру иногда бывает сложно выбрать метрику, соответствующую вашей проблеме. Например, обычно используемая точность может не подходить, когда вы имеете дело с искаженными классами, когда модель может просто предсказывать класс большинства и по-прежнему давать высокую точность.

Возможно, вы будете больше заинтересованы в точности и запоминании оценок с вашими сильно несбалансированными данными. Однако эти баллы, скорее всего, будут зависеть от вашего порога принятия решения. Давайте поговорим об этом на более конкретном примере. Мистер Картофель - фанатик Krispy Kreme, и, учитывая его впечатляющую историю покупок пончиков, он обнаружил, что в некоторые дни его пончик (да, он покупает только один) намного меньше обычного. Он выдвигает гипотезу (и да, он не хочет просто просить о большем): определенные условия в те дни могли повлиять на его размер пончика. Он быстро записал некоторые вещи, которые могли сыграть свою роль в последний раз, когда он получил меньшую - время суток, количество одинаковых пончиков, оставшихся на ящике с едой, количество сотрудников в тот день, количество клиентов в этот день и т. Д.

Он делает это в течение пятидесяти лет и собрал достаточно данных для обучения, но только 2% данных были помечены как крошечные 🍩. Его модель имела точность 98%, но только 71% и 26% запоминаемости. Он, очевидно, хотел бы, чтобы отзыв был выше, и он готов обменять часть этой точности на отзыв - было бы хорошо, если бы они могли просто переключать проценты.

Он знает, что его модель предсказывает вероятности для 2 классов, крошечного и обычного бублика (1 и 0), и принимает решение с порогом решения по умолчанию 0,5. Поэтому он решил проткнуть свою модель и сделать так, чтобы она предсказывала 1, пока ее вероятность превышает 0,45, что обеспечило ему точность 60% и отзывчивость 40%. Он экспериментировал с некоторыми другими пороговыми значениями и обнаружил, что это потенциально очень полезно, но также беспокоило его, потому что он отбросил кучу моделей с отзывами 24%, 25%, но более высокой точностью, что, если после некоторой корректировки порога одна из этих моделей выйдет на первое место ?

Вот почему вы хотите учитывать площадь под кривой для сравнения моделей. Площадь под кривой обозначает интеграл площади под кривой точного отзыва. Кривая точности-отзыва строится с использованием разбиения пороговых значений решения от 0 до 1, причем ось X соответствует отзыву, а ось Y - точности. Сравнение кривых точности-отзыва между разными моделями может дать ценную информацию. Если кривая прецизионного отзыва модели 1 всегда выше кривой прецизионного отзыва модели 2, это означает, что модель 1 при любых порогах принятия решения будет работать лучше как по точности, так и по отзыву. В этом смысле более высокая нижняя кривая означает лучшую точность и отзывчивость при более широком диапазоне пороговых значений принятия решения.

Возможно, вы уже заметили, почему эта область под кривой является более интересной скалярной мерой для сравнения ваших различных моделей: она не зависит от пороговых значений решения. Так что нет необходимости спрашивать «лучше, но с какими порогами?» Есть еще одна причина, по которой мистеру Картофелю следует не решаться выбрать одну модель, а не другую, даже с большей площадью под кривой, но об этом в следующий раз.