Показатели производительности модели машинного обучения уточняют производительность ваших моделей. Оценка вашей модели позволяет вам просмотреть и исправить вашу модель, если это необходимо.

При построении любой модели машинного обучения показатели производительности будут нашей важной критикой. Мы должны хорошо знать метрики оценки модели, а также понимать, как они работают и какой из них является наиболее важным, который следует учитывать для разных моделей. Будет эффективнее, когда мы научимся правильно использовать эти метрики.

  It should be noted that evaluating the performance of the model and validating the model are different issues!
  Model validation methods(k fold cross validation, Leave One Out,Bootstrap etc.) were the methods that allowed us to
evaluate the success of the models more accurately.Now we will evaluate the prediction success of the models.

Типы проблем, которые могут у нас возникнуть:
1/проблемы регрессии при непрерывном выходе
2/ Проблемы классификации, когда выходные данные являются номинальными или переменными класса
3/Проблемы с подкреплением, когда модель принимает решение на основе политики и состояния система. (Метрики, связанные с этим, здесь не упоминаются, это тема другого письма.)

Показатели регрессионной модели

Средняя абсолютная ошибка/MAE:

MAE получается путем вычисления абсолютной разницы между предсказаниями модели и истинными/факическими значениями. MAE — это мера средней величины ошибки, разработанной регрессионной моделью. Если показатель MAE равен нулю, это говорит о том, что предсказания модели идеальны.

Среднеквадратическая ошибка/MSE

Среднеквадратическая ошибка очень похожа на среднюю абсолютную ошибку, но использует квадраты разницы между прогнозами модели и набором обучающих данных.

Среднеквадратическая ошибка/RMSE

Среднеквадратическая ошибка/RMSE обозначает стандартное отклонение остатков. RMSE можно эффективно интерпретировать по сравнению с MSE, потому что единицы RMSE соответствуют единицам вывода. RMSE обеспечивает оценку того, насколько велики рассредоточены остатки.

Средняя абсолютная ошибка в процентах/MAPE

Средняя абсолютная ошибка в процентах (MAPE) равна MAE, но дает ошибку в процентной форме и, следовательно, преодолевает ограничения MAE. MAPE может отображать некоторые ограничения, если значение точки данных равно нулю, поскольку задействована операция деления.

Коэффициент детерминации/R_Squared

R Squares — это процент независимых переменных, объясняющих изменение зависимой переменной.

  • Как правило, R-квадрат измеряется для значений от 0 до 1. Как правило, значения ближе к 1 лучше, чем значения ближе к 0 или отрицательные.

Тем не менее, нужно быть очень осторожным, независимо от того, сколько переменных добавляется к набору данных, значение R2 имеет тенденцию увеличиваться по мере его формулирования! Это также вводит в заблуждение и приводит к включению в данные многих нерелевантных переменных. Он имеет скорректированное значение R2, чтобы предотвратить это увеличение и дает более разумные результаты.

  • Скорректированный R2/ADJ.R2: это скорректированная версия значения R2.

— Оценка моделей классификации —

Концепция матрицы путаницы

Матрица путаницы используется для представления эффективности модели классификации. Мы вычислим множество коэффициентов по этой матрице и оценим производительность модели с нашими наблюдениями за результатами этих коэффициентов.

  • Истинные срабатывания /TP: случаи, когда классификатор предсказывал ИСТИНА, а правильный класс был ИСТИНА.
  • Истинные негативы /TN: случаи, когда модель предсказывала FALSE , а правильный класс был FALSE.
  • Ложные срабатывания /FP (ошибка типа I): классификатор предсказал ИСТИНА, но правильный класс был ЛОЖЬ.
  • Ложноотрицательные результаты /FN (ошибка типа II): классификатор предсказал ЛОЖЬ, но на самом деле они имеют ситуацию.

Из матрицы путаницы можно получить некоторые соотношения/показатели;

  • Точность: количество правильных прогнозов, деленное на общее количество прогнозов.

  • Точность: это разделение положительных случаев, правильно идентифицированных на все случаи, идентифицированные как положительные (включая ложноположительные).

  • Отрицательная прогностическая ценность: то же самое, что и точность, но для отрицательных случаев: это количество истинно отрицательных результатов, деленное на общее количество отрицательных результатов, выявленных моделью (включая ложноотрицательные результаты).

  • Отзыв/чувствительность: разделение истинно положительных случаев на все действительно положительные случаи/включая ложноотрицательные случаи. Это имеет значение, когда вы пытаетесь получить больше истинных положительных результатов, чем истинных отрицательных.

  • Оценка F1: сочетание чувствительности и отзыва.

  • Специфичность. То же, что и припоминание, но для отрицательных примеров: это деление истинно отрицательных случаев на все реально отрицательные случаи (включая ложноположительные). Это имеет значение, когда вы пытаетесь получить больше истинно-отрицательных результатов, чем истинно-положительных.

Есть две не очень широко известные в проектах по науке о данных метрики, которые достаточно эффективны для несбалансированных данных и могут использоваться для мультиклассовых данных;каппа Коэна и коэффициент корреляции Мэтьюса/MCC.

  • «Каппа Коэна» — это мера, которая сравнивает реальную точность со случайной точностью. Это в основном полезно для задач с несбалансированными классами.

  • MMC, также известный как коэффициент Phi, изначально был разработан для бинарной классификации, но затем был обобщен для данных нескольких классов. MCC — это статистический инструмент, используемый для оценки модели. MCC — это лучшая метрика производительности классификации с одним значением, которая помогает обобщить матрицу путаницы. MCC помогает нам определить неэффективность классификатора при классификации, особенно образцов отрицательного класса.

=›MCC находится в диапазоне от +1 до -1, как:

=›+1 указывает на наилучшее соответствие между прогнозируемыми и фактическими значениями.

=›0 означает, что нет соглашения о том, что предсказание является случайным в соответствии с фактическими данными.

Заключение

То, что я написал об измерении производительности модели, было просто общей информацией. Однако мое личное мнение таково, что нам все равно не нужно знать их все. Но что я хотел бы иметь в виду в результате этой статьи, так это то, что не каждая метрика подходит для каждого случая.

При написании кода с помощью python для использования этих и других метрик можно использовать библиотеку scikit:

https://scikit-learn.org/stable/modules/model_evaluation.html

Спасибо за чтение…