В машинном обучении существуют различные метрики оценки. При измерении производительности модели мы учитываем метрики, чтобы знать, работает ли эта модель так, как она должна. достаточно ли хороша производительность, чтобы делать точные прогнозы? Это некоторые вопросы, на которые можно получить ответы при оценке модели. Мы собираемся обсудить 8 самых популярных показателей оценки в машинном обучении. Продолжите чтение, чтобы узнать, что они собой представляют.

Что такое оценочные показатели?

Метрики оценки — это важные инструменты, которые позволяют нам количественно оценивать эффективность наших моделей. Эти показатели дают ценную информацию о том, насколько точно наши модели делают прогнозы, и помогают нам принимать обоснованные решения об улучшении моделей. Крайне важно оценить модель, чтобы определить, что она является наиболее эффективной.

Метрики оценки различаются для разных моделей прогнозирования, таких как регрессия и классификация, а модели прогнозирования классификации обычно бывают двух типов — на основе классов (которые выводят класс как прогноз 0 или 1) и на основе вероятности (которые выводят вероятность особенность находится в этом конкретном классе).

Метрики оценки регрессии в машинном обучении

Мы собираемся обсудить две популярные метрики оценки регрессии в машинном обучении. Задачи регрессии включают в себя прогнозирование непрерывных числовых значений, и цель здесь — оценить взаимосвязь между входными признаками и непрерывной целевой переменной. Вот некоторые оценочные метрики, используемые в регрессионных моделях машинного обучения:

Среднеквадратическая ошибка (RMSE):

RMSE — это квадратный корень из MSE. Это дает нам меру средней величины ошибок в прогнозируемых значениях. Как и MSE, он чувствителен к выбросам. RMSE помогает ответить на вопрос: «Насколько в среднем прогноз модели отклоняется от фактических значений целевых переменных?»

Обратите внимание, что RMSE чувствителен к выбросам, поскольку он возводит ошибки в квадрат перед их усреднением. Это означает, что более крупные ошибки вносят больший вклад в RMSE, что делает его подходящим показателем для наказания за значительные отклонения между прогнозами и фактическими значениями.

R-квадрат (коэффициент детерминации):

R-квадрат, также известный как коэффициент детерминации, представляет собой показатель, который оценивает долю дисперсии целевой переменной, объясняемую моделью. Это мера того, насколько хорошо независимые переменные в модели учитывают изменчивость зависимой переменной.

Значение R-квадрата варьируется от 0 до 1, причем более высокие значения указывают на лучшее соответствие модели данным. Однако высокий R-квадрат не обязательно означает, что модель является прогнозирующей; это может указывать на переобучение, если модель улавливает шум в данных.

Метрики оценки классификации в машинном обучении

Классификация в машинном обучении включает в себя прогнозирование дискретных меток классов или категориальных значений. Как мы уже обсуждали, он бывает двух типов — на основе классов и на основе вероятности. Цель состоит в том, чтобы назначить входной экземпляр одному из нескольких предопределенных классов. Метрики оценки моделей классификации в машинном обучении перечислены ниже:

Точность

Я уверен, что вы, возможно, много раз слышали о точности. Точность — это жизненно важный показатель оценки, особенно в задачах классификации. Он количественно определяет способность модели делать точные положительные прогнозы среди всех положительных прогнозов, которые она делает. Проще говоря, он измеряет, насколько хорошо модель избегает ложноположительных ошибок, то есть неправильной классификации отрицательного экземпляра как положительного.

Точность рассчитывается путем деления количества истинно положительных прогнозов (случаев, правильно классифицированных как положительные) на сумму истинно положительных и ложноположительных прогнозов (случаев, неправильно классифицированных как положительные):

Следовательно, Точность = Истинные положительные результаты / (Истинные положительные результаты + Ложные положительные результаты)

Давайте возьмем реальный пример, чтобы понять точность. Представьте, что вы создаете спам-фильтр электронной почты, верно? Высокая точность в этом контексте будет означать, что когда ваша модель помечает электронное письмо как спам, почти наверняка оно действительно является спамом, что сводит к минимуму вероятность ложных срабатываний.

Например, если ваш спам-фильтр имеет точность 0,95, это означает, что из каждых 100 писем, которые он классифицирует как спам, примерно 95 из них являются настоящим спамом и только около 5 являются ложными срабатываниями.

Отзывать

С Precision приходит Recall, эти термины обычно идут рука об руку. Отзыв рассчитывается как отношение истинных положительных результатов (правильно идентифицированных положительных случаев) к сумме истинных положительных результатов и ложных отрицательных результатов (положительных случаев, которые были пропущены моделью). Это выражается как:

Отзыв = Истинные положительные результаты / (Истинные положительные результаты + Ложные отрицательные результаты)

Этот показатель часто представляется в процентах или в виде значения от 0 до 1. Оценка отзыва, равная 1, означает, что модель идеально уловила все положительные случаи, а оценка 0 означает, что ни один из положительных случаев не был обнаружен.

Рассмотрим тот же пример системы обнаружения спама в электронной почте. Последствия отсутствия настоящего письма в папке со спамом могут быть неудобными, но отсутствие настоящего спам-письма в папке «Входящие» может привести к катастрофическим последствиям. Именно здесь вступает в игру отзыв. Максимизируя отзыв, система гарантирует, что она правильно идентифицирует и перемещает спам-сообщения в папку со спамом, сводя к минимуму вероятность ложноотрицательных результатов — важный аспект в ситуациях, когда отсутствие фактических положительных результатов недопустимо.

Матрица путаницы

Матрица путаницы — одна из наиболее фундаментальных метрик оценки в машинном обучении, особенно для оценки производительности моделей классификации. Матрица путаницы представляет собой квадратную таблицу, в которой прогнозируемые классы сопоставлены с фактическими классами. Он разделен на четыре раздела:

  1. Истинно положительный результат (TP): экземпляры, которые правильно прогнозируются как положительные.
  2. Истинно отрицательный результат (TN): экземпляры, которые правильно прогнозируются как отрицательные.
  3. Ложное срабатывание (FP): случаи, которые ошибочно прогнозируются как положительные, хотя на самом деле они являются отрицательными.
  4. Ложно-отрицательный результат (FN): случаи, которые ошибочно прогнозируются как отрицательные, хотя на самом деле они являются положительными.

Продолжая пример с фильтром спама, если ваша модель нацелена на выявление спам-сообщений, матрица путаницы покажет вам, сколько фактических спам-сообщений было классифицировано правильно (TP) и сколько было пропущено (FN). Также будет показано, сколько законных электронных писем было ошибочно классифицировано как спам (FP).

Получение показателей. Из матрицы путаницы можно извлечь различные показатели, которые помогут оценить эффективность модели:

  1. Точность. Общая правильность прогнозов модели, рассчитываемая как (TP + TN) / общее количество экземпляров.
  2. Точность. Доля правильно предсказанных положительных случаев среди всех случаев, предсказанных как положительные, рассчитывается как TP / (TP + FP).
  3. Напомним: доля фактических положительных случаев, которые были правильно предсказаны, рассчитывается как TP / (TP + FN).
  4. Оценка F1. Среднее гармоническое значение точности и полноты, обеспечивающее сбалансированную меру точности. Точность.

АУК-РОК

Прежде чем говорить о AUC-ROC, давайте сначала разберемся с самой кривой ROC. ROC — это графическое представление производительности модели при изменении порога дискриминации. В сценарии двоичной классификации порог определяет, когда прогнозируемая вероятность классифицируется как положительная или отрицательная. По мере изменения порога меняются истинно положительный уровень (отзыв) и ложный положительный уровень модели.

Кривая ROC создается путем нанесения истинно положительного результата (TPR) на ось Y против уровня ложноположительного результата (FPR) на оси X. TPR также известен как чувствительность или отзыв, а FPR — это отношение ложноположительных результатов к общему количеству фактически отрицательных результатов.

AUC-ROC — это численная мера, полученная на основе кривой ROC. Он представляет собой область под кривой ROC. Модель с идеальной способностью различать классы будет иметь показатель AUC-ROC, равный 1, а модель, которая работает не лучше, чем случайное угадывание, будет иметь показатель AUC-ROC, равный 0,5.

  1. Устойчивость к дисбалансу классов. AUC-ROC особенно полезен при работе с несбалансированными наборами данных, когда один класс имеет значительно больше экземпляров, чем другой. Он обеспечивает сбалансированную перспективу производительности модели, учитывая как истинно положительные, так и ложноположительные показатели.
  2. Независимость от порога. В отличие от таких показателей, как точность или показатель F1, на AUC-ROC не влияет выбор порога. Он оценивает производительность модели по ряду пороговых значений, обеспечивая комплексное представление.
  3. Сравнение моделей. AUC-ROC — отличный инструмент для сравнения характеристик различных моделей. Модели с более высокими показателями AUC-ROC обычно демонстрируют лучшие возможности распознавания.
  4. Визуализация. Кривая ROC и AUC-ROC не только информативны, но и визуально привлекательны. Они обеспечивают четкое визуальное представление компромисса модели между чувствительностью и специфичностью.

AUC-ROC особенно актуален, когда стоимость ложноположительных и ложноотрицательных результатов различается, и вы хотите найти баланс между ними. Он обычно используется в медицинской диагностике (где ложноотрицательные результаты могут иметь серьезные последствия), обнаружении мошенничества (где ложноположительные результаты могут привести к неудобствам) и в различных других приложениях, где разделение классов имеет значение.

F1-Оценка

Оценка F1 — это баланс между точностью и полнотой. Это особенно ценно, когда распределение классов в вашем наборе данных неравномерно или когда вы хотите избежать крайних случаев ложноположительных или ложноотрицательных результатов. Он рассчитывается как:

Оценка F-1 = 2 * ((напоминание * точность) / (напоминание + точность))

Высокий балл F1 указывает на то, что модель достигла хорошего баланса между точностью и полнотой. Однако в некоторых случаях точность может быть более критичной, а в других приоритет может иметь полнота.

Например, при медицинском диагнозе отсутствие положительных результатов (ложноотрицательные результаты) может быть опасным для жизни. В то же время ошибочная постановка диагноза здоровому человеку (ложноположительный результат) может привести к лишнему стрессу и дополнительным медицинским процедурам. Оценка Формулы-1 помогает сбалансировать эти опасения.

Заключение

В заключение мы обсудили 8 наиболее популярных метрик оценки моделей в машинном обучении, которые широко используются в той или иной задаче машинного обучения. Вот некоторые ключевые показатели, о которых мы говорили: RMSE и R-квадрат (регрессия) | Точность, полнота, матрица неточностей, показатель F1, AUC-ROC и точность (классификация). Вы должны знать эти фундаментальные метрики оценки в машинном обучении, поскольку они будут очень полезны при выполнении проектов, связанных как с задачами, основанными на регрессии, так и с задачами, основанными на классификации. Вы можете перейти к документации по метрикам оценки scikit-learn и узнать больше об их использовании.

Подробнее:

Оригинально опубликовано на сайте https://pypixel.com 24 августа 2023 г.