- 5 широко используемых показателей оценки для регрессионной модели в машинном обучении.

Сегодня мы поговорим о показателях производительности, и на этот раз это будут показатели регрессии. Как и в моем предыдущем блоге, мы обсуждали показатели классификации, на этот раз это регрессия.

Мы поговорим о 5 наиболее широко используемых метриках регрессии:

Давайте сначала поймем одну вещь, а именно разницу между классификационными и регрессионными метриками, почему нам нужны две разные метрики для измерения наших моделей.

Первое ключевое отличие заключается в том, что классификация, как следует из названия, дает классы в качестве выходных данных, что можно понять, поскольку у нас есть несколько категорий данных, скажем, класс 1–10, тогда нашим выходным значением будет любое число от 1 до 10. Таким образом, если выходные данные модели совпадают с моими фактическими выходными данными, то результат передается, в противном случае - сбой, других условий нет, вы можете быть верными или неверными. Хотя это не относится к регрессии, в регрессии моя модель выводит непрерывное число, нет дискретных значений, она непрерывна, как, например, наша модель пытается предсказать рост людей, мы знаем, что не можем классифицировать переменную высоты как 160 см, или 170 см или т. д ... это непрерывно, поэтому в этом случае мы рассматриваем, насколько близка наша модель к фактическому значению, концепция «насколько близка» порождает термин «потери», чтобы поместить в надлежащие научные или статистические обозначения, что это потери, понесенные нашей моделью при прогнозировании значения точки данных. Скажем, для определенной точки данных прогнозируется высота 167 см, тогда как фактическая точка данных имеет фактическое значение 163 см, тогда наша модель допустила ошибку + 5 см в этом случае, теперь это я только для 1 данных точка представьте, как измерить для всего набора данных?

Имейте в виду, что такое ошибка?

Любое отклонение от фактического значения является ошибкой,

Ошибка = Y (фактическое) - Y (прогнозируемое)

Помня об этом, мы поняли требования к метрикам, давайте углубимся в методы, которые мы можем использовать, чтобы найти способы понять производительность модели.

1. Среднеквадратичная ошибка (MSE)

Давайте попробуем разбить название: оно говорит «Среднее», оно говорит «Квадрат», оно говорит «Ошибка». Мы знаем, что такое Ошибка из приведенного выше объяснения, мы знаем, что такое квадрат, поэтому мы возводим ошибку в квадрат, а затем мы знаем, что такое Среднее, поэтому мы берем среднее значение всех ошибок, которые возводятся в квадрат и складываются.

Сначала должен возникнуть вопрос: почему мы делаем Square? Почему мы не можем напрямую понять ошибку?

Давайте снова возьмем пример роста: моя модель предсказала 167 см, тогда как мое фактическое значение составляет 163 см, поэтому отклонение составляет + 5 см, теперь давайте рассмотрим другой пример, где мой прогнозируемый рост составляет 158 см, а мой фактический рост - 163 см, теперь вот моя модель сделана ошибка -5см.

Теперь давайте найдем среднюю ошибку для 2 точек, так что расчет показывает [+5 + (-5)] / 2 = 0

Это показывает, что моя модель имеет 0 ошибок, но так ли это? Без прав? Таким образом, чтобы избежать таких проблем, мы должны взять квадрат, чтобы избавиться от Знака ошибки.

Итак, давайте посмотрим на формулировку этого показателя:

Где,

n = общее количество точек данных

Yi = фактическое значение

Ŷi = прогнозируемое значение

2. Среднеквадратичная ошибка (RMSE)

Теперь, когда мы все поняли, что такое MSE, совершенно очевидно, что извлечение корня из уравнения даст нам RMSE, давайте сначала посмотрим на формулу.

Где,

n = общее количество точек данных

Yi = фактическое значение

Ŷi = прогнозируемое значение

Теперь возникает вопрос, если у нас уже есть MSE, зачем нам RMSE?

Давайте попробуем разобраться в этом на примере, возьмем приведенный выше пример с двумя точками данных и вычислим для них MSE и RMSE,

СКО = [(5) 2 + (-5) 2] / 2 = 50/2 = 25

RMSE = Sqrt (MSE) = (25) ^ 0,5 = 5

Теперь вы скажете среди этих значений, какое из них более точное и соответствует фактической ошибке модели?

RMSE правильно, поэтому при фактическом возведении в квадрат значения экспоненциально их увеличивает, в то время как отказ от получения корня может повлиять на наше понимание того, где моя модель на самом деле делает ошибки.

3. Средняя абсолютная ошибка (MAE)

Теперь, я уверен, что вы, возможно, подумали об этом, почему квадрат? Почему бы просто не взять абсолютное значение из них, так вот оно у нас, все остается прежним, с той лишь разницей, что мы берем абсолютное значение нашей ошибки, это также решает проблемы со знаком, которые у нас были ранее, давайте рассмотрим формулу для это:

Где,

N = общее количество точек данных

Yi = фактическое значение

Ŷi = прогнозируемое значение

В чем разница между MAE и RMSE, поскольку оба они выдадут 5 в качестве ошибки для приведенного выше примера в RMSE.

Давайте поймем, что MAE и RMSE могут использоваться вместе для диагностики вариации ошибок в наборе прогнозов. RMSE всегда будет больше или равно MAE; чем больше разница между ними, тем больше разброс индивидуальных ошибок в выборке. Если RMSE = MAE, то все ошибки имеют одинаковую величину.

Ошибки [2, -3, 5, 120, -116, 197]

RMSE = 115,5

MAE = 88,6

Если мы видим разницу, RMSE имеет более высокое значение, чем MAE, что означает, что RMSE придает большее значение более высокой ошибке из-за возведения значений в квадрат.

4. Средняя абсолютная процентная ошибка (MAPE)

Это похоже на MAE с той лишь разницей, что мы берем процентную ошибку, а не абсолютное значение, давайте посмотрим на формулировку:

Где,

N = общее количество точек данных

Yi = фактическое значение

Ŷi = прогнозируемое значение

MAPE представляет ошибку в процентах и, следовательно, не относится к размеру чисел в самих данных, в то время как любой другой показатель, упомянутый выше.

5. R² или коэффициент детерминации

Это отношение MSE (ошибки прогнозирования) и базовой вариации целевой переменной, здесь базовая линия - это отклонение наших значений Y от среднего значения.

Показатель помогает нам сравнить нашу текущую модель с постоянным базовым значением (т.е. средним) и говорит нам, насколько наша модель лучше, R2 всегда меньше 1, и не имеет значения, насколько велики или малы ошибки R2 всегда меньше 1.

Давайте посмотрим на формулировку:

Итак, у вас есть некоторые из широко используемых показателей производительности для моделей регрессии.

Спасибо за чтение …