Точность, точность, отзыв и оценка F1: визуализация

Они называются показателями производительности для моделей классификации. Мы можем использовать эти показатели, чтобы оценить, насколько хорошо модель классифицировала данные. Чем лучше мы понимаем показатели производительности, тем лучше мы можем их интерпретировать.

Прежде чем двигаться дальше в блоге, я рекомендую вам сначала просмотреть это видео, чтобы визуализировать, что такое точность и полнота.

https://www.youtube.com/watch?v=qWfzIYCvBqo

Итак, давайте посмотрим на интерпретацию этих метрик, сначала мы поймем это на нескольких примерах, а затем рассмотрим их математически.

Для лучшего понимания сравните пример, описанный в этом блоге, с яблоками и апельсинами. Если вы не смотрели видео, вам может быть сложно понять.

Точность:

Точность — это доля правильных прогнозов, полученных нашей моделью, математически это отношение количества правильных прогнозов к общему количеству прогнозов. Он полезен, когда все классы имеют одинаковую важность, и именно здесь проявляется его недостаток. В частности, для несбалансированных задач классификации, когда один класс доминирует над другим. Посмотрим как?

Предположим, у нас есть документы, разделенные на спорт, здоровье и питание. Всего 1000 документов, из них 990 на спорт, 5 на здоровье и 5 на питание. Здесь мы видим, что у нас есть классы, несбалансированные по спортивным документам. Теперь одна модель классификации, которая дает высокую точность, предсказывает каждый документ как вид спорта, и это дает точность 99%. Но это неправильно. Здесь нам нужно оценить модель, используя другие показатели, такие как точность и полнота.

Точность и отзыв

Теперь точность и полнота определяются в терминах одного класса, часто положительного или миноритарного класса. Учитывая набор данных, в котором у нас есть два класса, пациенты с сердечным заболеванием (1) или без него (0). В этом сценарии мы рассчитываем точность и полноту для пациентов с сердечными заболеваниями (один класс).

Обученная модель дает вероятность того, есть ли у пациента заболевание сердца, на основе некоторого входного признака. Вероятность «p» может быть установлена таким образом, что если p > x (некоторое значение от 0 до 1), то модель объявит, что у пациента есть болезнь сердца, а x известен как пороговое значение.

Обозначение: точка красного цвета показывает, что у пациента есть заболевание сердца, а зеленый цвет указывает на здоровое сердце, а размер указывает на серьезность заболевания.

На рисунке (1) показано пороговое значение 0,5, что означает, что если прогнозируемое значение больше порогового значения, то у пациента заболевание сердца. Чтобы понять точность и вспомнить, мы рассматриваем два случая СЛУЧАЙ 1: что, если мы хотим, чтобы эта модель выявляла только пациентов с тяжелым заболеванием сердца? В этом случае пороговое значение будет увеличено до 0,75 (рис. 2) или 0,85 (рис. 3), что является высоким порогом. будет классифицировать сердечные заболевания только в том случае, если модель уверена в своем прогнозе. Следовательно, мы можем утверждать, что увеличение порога повысит точность.

Теперь давайте посмотрим математически, почему точность улучшается при увеличении порога.

Определение точности гласит: «Какая доля идентификации является действительно правильной». Все пациенты, находящиеся справа от порогового значения, классифицируются как пациенты с сердечными заболеваниями, и если находятся пациенты со здоровым сердцем на правой стороне порога, они будут классифицированы неправильно (неверный прогноз).

Точность определяется как:

Точность = (Болезнь сердца (красные точки)) / ((Болезнь сердца (красные точки)) + здоровое сердце (зеленая точка))

(Истинно положительный (правильный прогноз)) / (Истинно положительный (правильный прогноз) + ложноположительный (неправильный прогноз))

На приведенных выше изображениях мы видим, что точность последнего изображения высока, потому что в этом случае классификатор более уверен в том, что у пациента есть заболевание сердца. Оценка точности 1,0 означает, что каждое сердце, классифицированное как нездоровое, действительно нездорово. (но ничего не говорит о количестве «нездоровых сердец, которые были неправильно классифицированы).

Случай 2: Что, если мы хотим, чтобы модель выявляла всех пациентов с сердечными заболеваниями? В этом случае мы должны сдвинуть пороговую линию влево. А смещение линии влево предсказывает значительное количество случаев сердечных заболеваний (истинно положительные или красные точки). Таким образом, в этом сценарии мы увеличиваем отзыв по мере того, как модель выявляет больше пациентов с сердечными заболеваниями. Здесь вы также можете заметить, что точность будет уменьшаться, так как он будет учитывать больше ложных срабатываний (т. е. будет предсказывать более здоровые сердца как нездоровые, а точность становится низкой).

В некоторых сценариях требуется, чтобы модель выявляла всех пациентов с сердечными заболеваниями, но нет проблем, если модель предсказывает здоровое сердце как нездоровое, и в этом случае предпочтение будет отдаваться отзыву.

Определение отзыва гласит: «Какая доля фактически положительных результатов была идентифицирована правильно?». Здесь это означает, сколько из всех пациентов с сердечными заболеваниями мы правильно классифицировали. И это то, что говорит первое изображение, мы правильно классифицировали всех пациентов с сердечными заболеваниями и получили 100% отзыв. Но, опять же, здесь вы не можете сказать о количестве здоровых сердец, которые неправильно классифицированы (как вы можете видеть, все зеленые сердца считаются нездоровыми на первом изображении. Однако модель соответствует требованию, что пациенты с нездоровым сердцем не должны можно считать здоровым.). Таким образом, отзыв увеличивается, но точность снижается.

отзыв 1,0 означает, что каждый элемент из класса нездорового сердца был помечен как принадлежащий к классу нездорового сердца (но ничего не говорит о том, сколько элементов из классов здорового сердца были также неправильно помечены как класс нездорового сердца).

Короче:

Точность. Сколько из всех положительных прогнозов действительно положительные?

Напоминаем: сколько из всех реальных положительных случаев прогнозируется положительным?

Точность и отзыв: перетягивание каната

Чтобы полностью оценить эффективность модели, необходимо проверить и точность, и полноту. К сожалению, точность и полнота часто противоречат друг другу. То есть повышение точности обычно снижает отзыв, и наоборот. Это поведение видно на двух изображениях ниже. В первом случае точность увеличивается при уменьшении полноты, а во втором — при уменьшении точности. Но у обоих есть свои варианты использования: в СЛУЧАЕ 1 нам требуется высокая точность, а в СЛУЧАЕ 2 нам требуется высокая полнота. Соответственно, будут установлены точность и полнота, а это компромисс между точностью и полнотой (повышение точности уменьшит полноту и наоборот).

Сочетание точности и отзыва: F-мера

F-оценка — это способ объединения точности и полноты модели, и он определяется как среднее гармоническое точности и полноты модели.

Формула F-оценки:

На приведенном выше изображении обратите внимание, что формула учитывает как точность, так и полноту. Показатель F1 находится в диапазоне от 0 до 1. Чем он ближе к 1, тем лучше модель.

Практики часто измеряют и пытаются улучшить оценку F1 при построении модели классификации. Это гарантирует, что обе метрики останутся здоровыми и что доминирующий класс не перегрузит метрику, как это обычно бывает с точностью.

Надеюсь, этот блог поможет вам понять точность и полноту.

Спасибо.

Точность, точность, отзыв и оценка F1: визуализация

Точность:

Точность и отзыв

Точность и отзыв: перетягивание каната

Сочетание точности и отзыва: F-мера

Вопросы по теме