Объяснение метрик оценки в общих чертах

Термины машинного обучения могут показаться очень запутанными, как если бы они были поняты машинами. Неинтуитивные и похожие по звучанию имена, такие как Ложно-отрицательные и Истинно-положительные, Точность, Отзыв, Область под ROC, Чувствительность, Специфичность и Безумие. Хорошо, последний был ненастоящим.

Уже есть несколько отличных статей о точности и припоминании, но когда я читаю их и другие дискуссии о stackexchange, все запутанные термины путаются в моей голове, и я сбиваюсь с толку больше, чем неразмеченная матрица путаницы - так что я никогда не чувствовал, что понимаю это полностью.

Но чтобы знать, как работает наша модель, важно овладеть оценочными метриками и понимать их на глубоком уровне. Итак, что на самом деле нужно знать специалисту по данным для оценки модели классификации? Ниже я объясню наиболее важные из них, используя наглядные пособия и примеры, чтобы они навсегда остались в нашем мозгу.

Точность

Начнем с самого простого - точности. Это буквально то, насколько хорошо ваша модель угадывает правильные ярлыки или основную истину. Если ваш набор данных довольно сбалансирован и вы заботитесь о правильности каждой категории, это все, о чем вам нужно беспокоиться.

К сожалению, если ваш набор данных несбалансирован, как набор данных для обнаружения мошенничества, вероятность того, что случаи отсутствия мошенничества будут занимать 80–90% ваших этикеток. Таким образом, если ваша модель слепо предсказывает все точки данных как метку большинства, мы все равно будем иметь точность 80–90%.

Вот когда нам нужна точность и отзывчивость.

Точность (также называемая специфичностью)

Точность - это отношение того, что модель правильно предсказала к тому, что предсказала модель. Для каждой категории / класса существует одно значение точности.

Мы фокусируемся на точности, когда нам нужно, чтобы прогнозы были верными, т.е. в идеале вы хотите убедиться, что модель верна, когда вы прогнозируете метку. Например, если у вас есть модель ставок на футбол, которая предсказывает, делать ли ставку или нет, вас больше всего волнует ее правильность, потому что вы будете действовать на основе того, что она предсказывала, но вы не потеряете деньги, когда она скажет вам не ставить.

Если вы предпочитаете точность, цена ошибочного прогноза намного выше, чем цена пропуска правильного прогноза.

Напоминание (также называемое чувствительностью)

Напоминание - это соотношение того, что модель правильно предсказала, к фактическим меткам. Точно так же для каждой категории / класса существует одно значение отзыва.

Мы заботимся об отзыве, когда хотим максимизировать предсказание конкретного класса, т.е. в идеале вы хотите, чтобы модель захватывала все примеры класса. Например, сканирующие машины службы безопасности аэропорта должны следить за тем, чтобы детекторы не пропустили никаких реальных бомб / опасных предметов, и, следовательно, мы можем иногда останавливать не ту сумку / пассажира.

Если вы предпочитаете отзыв, цена пропуска прогноза намного выше, чем неверного.

F1-Score: сочетание точности и отзывчивости

Если мы хотим, чтобы наша модель имела сбалансированные показатели точности и запоминания, мы усредняем их, чтобы получить единую метрику. Но какой средний вариант идеален? Для таких соотношений, как точность и отзывчивость, гармоническое среднее значение, такое как F1-Score, более подходит по сравнению с обычным средним арифметическим.

Определение гармонического среднего кажется сложным: обратное среднее арифметическое и обратное ваших оценок. Я подхожу к длинным определениям, когда начинаю с самого глубокого уровня и понимаю его слой за слоем. Всего их 3:

Компромиссы: факт жизни

Как вы, возможно, догадались, точность и запоминание влияют на то, что для нас важнее - цена ошибочного прогноза или цена упущения истины? Часто приходится отказываться от одного, чтобы получить больше другого. Ниже приведено отличное объяснение / визуализация от Google относительно компромисса и того, как переключение порога классификации позволяет нам решить, что нас волнует - обратите внимание, что это также изменит нашу оценку F1.

Заключение

Я надеюсь, что это объясняет точность, точность, отзывчивость и F1 простым и интуитивно понятным способом. Я считаю, что вместе с примерами это отличное начало для понимания других показателей оценки. Итак, ваша бизнес-цель ближе к модели ставок, сканеру аэропорта или их сочетанию?