Большинство моделей классификации учатся выводить оценку для каждого отдельного класса на основе значений столбцов признаков. Оценка часто представляет собой вероятность предсказания того, что конкретный пример относится к выбранной метке класса.

Прогнозируемый ярлык является результатом применения порога принятия решения к этому показателю. Например, давайте рассмотрим модель, которая учится предсказывать, относится ли пациент к группе высокого риска (положительный класс) заболевания. Применение порога принятия решения 50% означает, что вероятность прогноза выше 50% будет интерпретироваться моделью как прогноз «высокого риска».

Концепции производительности модели

Здесь в игру вступают понятия Точность, Отзыв, Истинно положительные срабатывания и Ложноположительные срабатывания. Порог принятия решения обычно выбирается таким образом, чтобы у модели было меньше шансов пропустить пример, который действительно принадлежит к положительному классу (другими словами, низкий процент промаховили высокий отзыв), сохраняя при этом количество примеры, ошибочно обнаруженные как положительный класс ниже допустимого уровня (другими словами, низкий уровень ложных срабатыванийили высокая точность).

Точность (также называемая положительной прогностической ценностью) относится к доле примеров, идентифицированных моделью как положительные, которые помечены как положительные при выбранном пороге.

Показатель истинно положительных результатов (TPR; также известный как полнота или чувствительность) относится к доле примеров с положительными метками, которые определяются моделью как положительные при выбранном пороге.

Коэффициент ложноположительных результатов (FPR) относится к доле примеров с отрицательными метками, которые модель ошибочно идентифицирует как положительные при выбранном пороге.

Оценка производительности модели

Рассмотрим следующие сценарии, в которых символы имеют следующее значение:

1. Модель слишком специфична

В первом сценарии модель слишком специфична и, как следствие, ее детектирования недостаточно для захвата всех примеров с меткой «+». Он жертвует отзывом, чтобы вероятность ложного обнаружения была близка или равна нулю. В результате он имеет высокий процент промахов или низкий уровень отзыва. Это происходит, когда порог принятия решения слишком ВЫСОКИЙ:

2. Модель выходит за рамки

Во втором сценарии у нас есть другая крайность: модель слишком широка и в результате часто неправильно классифицирует «-» примеры как «+». Он жертвует точностью, чтобы снизить вероятность промаха. Следовательно, говорят, что он имеет высокий уровень ложных срабатываний или низкую точность. Это происходит, когда порог принятия решения слишком НИЗКИЙ:

3. Модель имеет оптимальную производительность

Третий сценарий — когда порог принятия решения выбран правильно, модель имеет оптимальную производительность — высокую точность, высокую полноту (верноположительный уровень) и низкий уровень ложноположительных результатов.

Кривые ROC и PR дают визуальное представление об этих различных компромиссах, которые возможны при настройке порога.

ROC-кривая

Кривая ROC представляет собой график частоты ложноположительных результатов (FPR) по оси x в сравнении с частотой истинных положительных результатов (TPR), также называемой отзывом, по оси y, оцененной при различные пороговые значения.

Термин «кривая ROC» является сокращением от «кривая рабочих характеристик приемника». Первоначально этот метод был разработан для операторов военных радиолокационных приемников, начиная с 1941 года, что и привело к его названию.

Ниже приведен пример кривой ROC:

Площадь под кривой (AUC) — это площадь под заштрихованной областью, показанной на рисунке выше. Это важный показатель, который можно использовать для обобщения кривой ROC. Он равен 1 для идеальной модели. ПРИМЕЧАНИЕ: важно иметь одинаковые масштабы для осей x и y, чтобы оси выглядели как квадрат, а не как прямоугольник. В противном случае легко неверно истолковать кривую ROC.

Диагональная пунктирная линия красного цвета представляет собой базовую кривую ROC для модели «нулевого навыка», которая выводит случайное предположение о счете без учета какого-либо входного столбца. Для такой модели частота ложноположительных и истинно положительных результатов одинакова для каждого порога. Здесь AUC равна 0,5, что представляет собой площадь треугольника, ограниченного горизонтальной осью, диагональной линией и вертикальной линией, когда частота ложных срабатываний равна 1. Идеальная кривая ROC показана синим цветом, она идет вверх от снизу слева до верхнего левого и остается плоским до верхнего правого.

Как вы интерпретируете кривую?

Каждая точка на ROC-кривой соответствует определенному значению порога принятия решения. Нижняя левая точка на кривой соответствует самому высокому порогу, а верхняя правая точка на кривой соответствует самому низкому порогу. На каждом пороге уровень пропущенного обнаружения (доля положительных примеров, идентифицированных моделью как отрицательные) может быть определен длиной вертикальной линии, проведенной от точки до верхней горизонтальной линии, ограничивающей кривую; вероятность ложного обнаружения (доля отрицательных примеров, идентифицированных моделью как положительные) соответствует значению на горизонтальной оси.

Идеальный случай возникает, когда мы можем установить порог принятия решения таким образом, чтобы точка на кривой ROC располагалась в верхнем левом углу — обе вероятности равны 0.

Кривая PR

Кривая Precision-Recall (PR) представляет собой график зависимости точности по оси Y от отзыва по оси x. Вот пример:

Подобно кривой ROC, каждая точка на кривой PR соответствует порогу принятия решения. AUC кривой PR — это заштрихованная область на рисунке выше. Идеальная модель показана синей линией, в которой точность и полнота близки к 1.

Примечание. Если в наборе данных очень мало положительных примеров по сравнению с отрицательными примерами, кривая точности-отзыва является лучшим индикатором эффективности. Кривая ROC может вводить в заблуждение. Примеры таких вариантов использования: Обнаружение мошенничества и контролируемое обнаружение аномалий.

Кривые ROC и PR являются распространенными методами, используемыми для оценки модели для бинарной классификации. Поэтому здесь, в PI.EXCHANGE, обе эти метрики проиллюстрированы на нашей платформе AutoML, AI & Analytics Engine. Они проиллюстрированы вместе с другими показателями, что позволяет опытным пользователям понять производительность обученной модели. Точно так же, чтобы помочь нетехническим пользователям в их понимании производительности модели, мы также предоставляем качество прогнозирования обученной модели, которое получено из кривых ROC и PR. Это качество предсказания можно увидеть на диаграмме ниже.

Двоичная классификация представляет два случая, в зависимости от того, является ли положительный класс меньшинством в наборе тестовых/оценочных данных:

  • Когда положительный класс составляет меньшинство: качество предсказания измеряется метрикой AUC PR (площадь под кривой точности-отзыва). Диапазон значений этой метрики — от 0 до 1, при этом более высокие значения означают, что модель лучше. Значение этой метрики умножается на 100, чтобы получить процентное значение в качестве «качества прогноза».
  • Когда положительный класс не является меньшинством: качество прогноза измеряется метрикой AUC ROC (площадь под кривой ROC). Диапазон значений этого показателя составляет от 0,5 до 1, при этом более высокие значения означают, что модель лучше. Значение этой метрики умножается на 100, чтобы получить процентное значение в качестве «качества прогноза».

Положительный класс — это меньшинство, когда количество строк с положительными метками в целевом столбце составляет менее 50 % от общего количества строк.