Выбор правильных показателей оценки для ваших моделей машинного обучения очень важен. Почему? Это помогает оценить, как работает ваша модель, и выбрать лучшие параметры.

Хотя вы можете просто попробовать все доступные метрики, это пустая трата времени, и вы будете сбиты с толку разными результатами этих метрик. Сегодня я в основном сосредоточусь на различных оценочных показателях для моделей классификации, плюсах и минусах этих показателей, а также на том, как выбрать подходящие показатели для ваших моделей машинного обучения.

Сравнение показателей оценки классификации

Классическая точность

Точность, вероятно, является самым первым оценочным показателем, о котором вы можете подумать. Он измеряет, сколько прогнозов верны по всем прогнозам. Это отношение количества правильных предсказаний к общему количеству предсказаний.

Обычно используется точность, потому что она проста и понятна. Однако в большинстве случаев это может быть не лучший выбор по двум причинам. Прежде всего, он дает вам только одно число, не сообщая, какие типы ошибок допускает ваша модель. Во-вторых, на него существенно влияют несбалансированные классы. Вот пример по второму пункту:

Представьте, что у вас есть тестовый набор данных с 10 наблюдениями. 9 из 10 относятся к классу A. Если мы решим всегда прогнозировать наиболее частый класс, при измерении производительности модели с использованием точности мы достигнем точности 90%. Однако это не означает, что наш алгоритм является оптимальным. В реальном мире часто данные несбалансированы. Таким образом, классическая точность не так полезна, и нам нужно ввести больше метрик.

Потеря логарифма

Еще одно измерение для ваших моделей машинного обучения - функции потерь. Вообще говоря, функции потерь представляют собой цену, уплаченную за неточность прогнозов. Для задачи классификации наиболее часто используется функция потери логарифма.

Потеря логарифма позволяет количественно оценить точность классификатора, наказывая за ложные классификации. Его можно использовать, если исходный результат классификатора является вектором вероятности.

Выше представлена ​​функция потерь журнала для модели мультиклассовой классификации, где N - количество выборок, M - количество классов, yij - двоичный индикатор того, является ли метка j правильной классификацией для экземпляра i, а pij - модельная вероятность присвоения метки j экземпляру i.

Функция потери журнала хороша тем, что она сильно наказывает за уверенность в неверном прогнозе. На приведенном ниже графике показано, что для модели двоичной классификации, когда истинная метка равна 1, поскольку прогнозируемая вероятность для метки = 1 стремится к 0, функция логарифмических потерь стремится к бесконечности.

Еще одно преимущество функции логарифмических потерь состоит в том, что она выпуклая, и ее можно глобально минимизировать с помощью методов стохастического градиентного спуска.

Следует отметить, что потеря журнала часто используется при оценке обучения.

Прежде чем мы углубимся в оценку ROC-AUC и F, я хотел бы ввести несколько терминов.

  1. True Positive Rate (TPR): правильно предсказывать положительный результат из всех истинно положительных результатов. Также может быть записано как TP / (TP + FN). Это также называется отзыв / чувствительность.
  2. Коэффициент ложноположительных результатов (FPR): прогнозирование положительного отрицательного результата из всех истинно отрицательных результатов. Также может быть записано как FP / (FP + TN). Специфичность измеряется 1-FPR.
  3. True Negative Rate (TNR): правильно предсказать отрицательный результат из всех истинно отрицательных результатов. Также может быть записано как TN / (TN + FP).
  4. Ложноотрицательный результат (FNR): прогнозирование положительного результата как отрицательного из всех истинно положительных результатов. Также может быть записано как FN / (TP + FN).
  5. Точность: доля истинно положительных результатов среди всех наблюдений, которые классифицируются как положительные. Его можно записать как TP / (TP + FP).

ROC-AUC

ROC обозначает рабочие характеристики приемника. График ROC создается путем построения графика зависимости истинно положительной скорости (TPR) от ложноположительной скорости (FPR) при различных настройках пороговых значений. «Это показывает, сколько истинно положительных классификаций можно получить, если допустить больше ложных срабатываний». Чаще всего он используется для визуализации производительности двоичного классификатора.

Идеальным сценарием является идеальная классификация, т.е. мы прогнозируем ноль ложных срабатываний с истинно положительным коэффициентом 1. Если вы сделаете случайное предположение о результате, он выпадет на диагональную линию слева снизу вверх. правый угол ОКР. Следовательно, точки, расположенные выше диагональной линии, будут хорошими результатами классификации, поскольку они лучше, чем случайное угадывание, а точки ниже диагональной линии хуже, чем случайные.

Одним из преимуществ использования ROC является то, что он визуализирует все возможные пороги классификации (FPR) для определенного классификатора, таким образом, предоставляет подробные сведения о поведении классификатора.

Однако сравнить одну РПЦ с другой не так-то просто. Это когда в игру вступает AUC. AUC обозначает площади под кривой и измеряет площади под кривой ROC. Он измеряет производительность классификатора одним числом и ограничивает его между 0 и 1. Чем ближе AUC к 1, тем лучше производительность классификатора.

ROC-AUC также может быть расширен до задач мультиклассовой классификации. Все, что вам нужно сделать, это принять подход «один против всех», выбрав один класс и сравнив его со всеми другими классами.

Преимущество ROC-AUC в том, что он нечувствителен к несбалансированным классам. Если вы думаете о AUC как о измерении вероятности ранжирования случайного положительного наблюдения над случайным отрицательным наблюдением, исходное распределение данных здесь не имеет особого значения.

Оценка F

Оценка F (также называемая оценкой F-бета) представляет собой комбинированное измерение запоминаемости и точности. Ниже представлена ​​обобщенная формула оценки F. При оценке моделей учитываются как отзыв, так и точность.

Оценка F-1 - это частный случай оценки F Beta Score, когда β = 1. Это гармоническое среднее значение точности и отзывчивости. Оценка F-1 имеет тенденцию к меньшему из значений точности и запоминания (поскольку среднее гармоническое всегда меньше или равно среднему арифметическому). Следовательно, оценка F-1 будет небольшой, если точность или отзыв невелики.

В зависимости от того, цените ли вы точность или больше запоминаете, вы можете выбрать свой β соответственно. Если вы оцениваете отзыв выше точности, выберите β больше 1. В качестве альтернативы, если вы взвешиваете точность выше отзыва, выберите β меньше 1. Когда вы предпочтете одно другому? В таких ситуациях, как распознавание болезни, вы определенно цените отзыв важнее точности. Хотя точность будет более критичной, когда цена ложных срабатываний высока. Например, при обнаружении спама вы хотите убедиться, что важное письмо не будет ошибочно классифицировано как спам, чтобы пользователи не потеряли ценную информацию. Следовательно, оценка F особенно полезна для задач с неравными затратами и выгодами.

Матрица неточностей

Мы обсудили, почему точность не является предпочтительной. Матрица неточностей дает четкое представление о правильных и неправильных классификациях для каждого класса. Основная диагональ матрицы неточностей содержит количество правильных классификаций, а ошибки классификатора - это ложные срабатывания и ложные отрицания.

Интересно, что если вы внимательно посмотрите на матрицу неточностей, вы заметите, что все другие метрики, о которых мы говорили в этой статье, могут быть получены из матрицы неточностей. Следовательно, матрица неточностей будет отличной отправной точкой, если вы хотите оценить, как работает ваша модель.

Что дальше?

Теперь, когда у нас есть некоторые оценочные метрики, пора рассмотреть , что было бы разумной базой для сравнения производительности модели. Это определенно зависит от разных сценариев использования. Однако есть некоторые общие рекомендации, которым мы могли бы следовать.

Я сейчас читаю книгу Наука о данных для бизнеса, и соответствующие абзацы в главе 7 меня очень вдохновили. Вот несколько предложений автора.

Хорошей базовой линией является мажоритарный классификатор, наивный классификатор, который всегда выбирает мажоритарный класс обучающего набора данных.

В некоторых приложениях есть несколько простых средних значений, которые можно комбинировать.

Немного более сложная альтернатива - это модель, которая учитывает только очень небольшой объем информации о функциях.

Помимо сравнения простых моделей, часто бывает полезно реализовать простые недорогие модели, основанные на знаниях предметной области или «полученной мудрости», и оценить их эффективность.

В заключение, очень важно выбрать правильные метрики оценки. Это требует тщательного обдумывания и зависит от множества различных факторов, распределения / характеристик ваших данных, ваших бизнес-целей ... Надеюсь, эта статья поможет вам, когда вы оцените свою модель в следующий раз!

Надеюсь, вам понравится эта статья. Как всегда, дайте мне знать, если у вас есть какие-либо вопросы, комментарии, предложения и т. Д. Спасибо за чтение :)

Ссылка

Выбор правильной метрики для оценки моделей машинного обучения - Часть 2 от Альвиры Свалин

Осмысление логарифмической потери Эндрю Б. Коллиера

Введение в функции потерь Джастина Гейджа

Кривые ROC и площадь под кривой объяснены Кевин Маркхэм

Оценка моделей машинного обучения Алиса Чжэн

Метрики для оценки алгоритмов машинного обучения в Python Джейсон Браунли, доктор философии

F1 Score из Википедии

Обо мне

Я учусь в магистратуре в области науки о данных в Университете Сан-Франциско. Я очень увлечен машинным обучением. В свободное время я люблю ходить в походы. Вы также можете найти меня через Linkedin.