MAPE против MAE: какой показатель лучше?

Введение

Поиск в Интернете дает множество результатов о том, что такое MAE и MAPE и когда их использовать. Эта статья будет отличаться тем, что представит читателю многочисленные примеры, подчеркивающие преимущества и недостатки каждого показателя, их различия и контексты, для которых они лучше всего подходят.

Что такое MAPE и MAE?

MAPE и MAE — это метрики производительности, которые можно использовать для оценки эффективности регрессионных моделей, а также других моделей машинного обучения, таких как прогнозы временных рядов. Они специально используются для контроля точности (не прецизионности). Ниже показано хорошее наглядное изображение, демонстрирующее разницу между точностью и прецизионностью. Метрики MAPE и MAE покажут, насколько близки фактические значения и прогнозируемые значения друг к другу, но игнорируют идеальные значения для обоих. Например, может существовать диапазон, в который мы хотим, чтобы значения попадали; метрики точности не будут учитывать это.

MAPE означает среднюю абсолютную ошибку в процентах, а MAE означает среднюю абсолютную ошибку. Из их названий мы видим, что они похожи, за исключением одного процента. Оба требуют двух точек данных: прогнозируемых значений и фактических значений, и оба определяют среднее отклонение (ошибку) между этими двумя значениями.

Уравнения MAPE и MAE на простом примере

Уравнение MAPE:

Уравнение MAE:

Пример 1: Если у нас есть фактическое значение 58 и прогнозируемое значение 52, каковы значения MAPE и MAE?

MAE проще всего рассчитать, и MAPE использует MAE для получения его значения.

MAE — это просто абсолютная разница между фактическим значением и прогнозируемым значением. Итак: |58- 52| = 6

MAPE — то же самое, но разделенное на фактическое значение. Итак: |58–52|/58 = 0,103. Значение MAPE представляет собой процентное выражение, поэтому его можно умножить на 100. В этом примере разница составляет чуть больше 10%.

Отсюда мы видим, что чем ниже значение, тем лучше производительность для обеих метрик.

В этом примере существует только одно прогнозируемое значение и одно фактическое значение; эти показатели обычно принимают множество значений и агрегируются, поэтому значения MAE или MAPE суммируются, а затем делятся на их количество (отсюда и «средние» значения).

Мы также видим, что MAE является более простым для понимания показателем, поскольку он имеет те же единицы измерения, что и фактические и прогнозируемые значения, но не учитывает величину разницы, как MAPE. MAPE может быть более выгодным, поскольку он показывает процентную разницу. Тот факт, что MAE не показывает процентную разницу, может быть недостатком при сравнении точности разных моделей, поскольку диапазон прогнозируемых и фактических значений может отличаться.

Дополнительные примеры, демонстрирующие плюсы и минусы MAPE и MAE

Пример 2

В следующем примере показан недостаток MAPE: значения асимметричны, что означает, что MAPE сообщает о более высоких ошибках, если прогнозируемое значение выше фактического значения, и сообщает о меньших ошибках, если прогнозируемое значение ниже фактического, даже если MAE одинаковый.

В приведенной выше таблице примера мы видим, что MAE для обеих дат составляет 300, однако MAPE между ними сильно различается в зависимости от того, является ли это прогнозируемое или фактическое значение наибольшим. Без добавления MAE показатель MAPE не дает такой полной информации.

Пример 3

Следующий пример показывает, что MAPE более восприимчив к экстремальным значениям, чем MAE.

Я использовал набор данных, который содержал фактические и прогнозируемые значения для разных моделей с течением времени. Я создал значения MAPE и MAE для каждой пары фактических и прогнозируемых значений, чтобы показать точность различных моделей регрессии в разные дни. У меня было более 11,5 тысяч строк, и только 453 имели значения MAPE больше 100 (3,9% данных). Некоторые из этих 453 значений были экстремальными, поскольку фактическое значение было очень низким, в результате чего MAPE составлял >1000. Диапазон MAE всегда находился в пределах 0–100, поскольку в выбранных моделях наименьшее значение могло быть 0, а максимальное — 100.

Используя эти данные, я создал две визуализации, которые показали разброс значений MAPE или MAE по рынкам. Как мы можем видеть ниже на примере разброса значений MAPE, несмотря на то, что всего 3,9% значений превышают 100, они значительно искажают данные, так что мы не можем увидеть разброс межквартильного диапазона (IQR). С помощью MAPE мы можем увидеть, какие рынки имеют наибольшее количество экстремальных значений и насколько высоки эти значения, но мало что можем понять о наиболее распространенных значениях. Хотя MAPE может иметь экстремальные значения, это лишь часть результатов (маловероятно, что прогнозируемое значение будет настолько низким или высоким, а фактическое будет абсолютно противоположным, если только модель не будет существенно недостаточно эффективной).

Поскольку значения MAE могут находиться только в гораздо меньшем диапазоне, разброс данных распределяется более равномерно. Как и в случае с MAPE, мы видим, что Румыния, Россия и США имеют много высоких ценностей, но они не доминируют над другими ценностями и рынками. Для всех рынков мы можем увидеть IQR и примерно определить, где находятся самые низкие и самые высокие значения.

Пример 4:

В следующем примере будет подчеркнута важность деления MAPE на фактическое значение, поэтому, когда MAPE равно 1x, 10x и 100x, значение MAE и когда MAPE приводит к ошибке.

Примечание. В отличие от примера выше, значение MAPE не было умножено на 100, поэтому эта часть соответствует формулам вверху страницы.

Поскольку оценка MAPE делится на фактическое значение, если фактическое значение равно 1, 10 или 100, то оценка MAPE будет в 1, 10, 100 раз меньше, чем MAE (уважительно). Эта точка указывает на то, что шкала значений MAPE отличается от шкалы MAE, которая является постоянной.

Во-вторых, поскольку MAPE делится на фактическое значение, если фактическое значение равно нулю, возникает ошибка деления. Один из способов избежать этого — не делить на ноль и, следовательно, заставить его возвращать значения MAE для этих экземпляров. Это недостаток MAPE, особенно если фактические значения, скорее всего, будут равны нулю.

Это означает, что MAPE в таких ситуациях не предоставляет никакой информации, тогда как MAE может, поскольку никакого разделения не требуется.

Важно понимать, хорошо это или плохо для вашего варианта использования: MAPE нормализован, поэтому работает в одном масштабе для моделей с разными диапазонами фактических и прогнозируемых значений, тогда как MAE использует одни и те же единицы.

Пример 5

Этот последний пример покажет, согласованы ли значения метрик в своем порядке. Я нарисую страны, упорядоченные по MAE от низшего к высшему, и проверю, совпадает ли порядок стран с MAPE, также упорядоченным от низшего к высшему.

Ниже мы видим, что Румыния и Россия имеют самые низкие значения MAE, а Швейцария — самые высокие. Однако на правом изображении, которое отображает рейтинг значений MAPE по рынкам, это не так, поскольку сейчас Румыния и Россия имеют самые большие значения MAPE, а Швейцария занимает среднее место, занимая 6-е место из 10 рынков.

Следовательно, мы не можем предполагать значение показателя MAPE вместе с показателем MAE, и наоборот. Это показывает, что может быть полезно сообщать оценки как MAPE, так и MAE.

Лучшей метрикой, которую следует использовать при сравнении разных рынков, которые имеют разные диапазоны фактических и прогнозируемых значений, является MAPE, потому что, если MAE составляет 13 для одного рынка и 53 для другого, сравнение их не имеет смысла, если на втором рынке разные значения. диапазона значений, средняя процентная ошибка дает больше информации.

Заключение

В заключение, как MAPE, так и MAE имеют свои преимущества и недостатки. MAE отлично подходит для сосредоточения внимания на одной модели или сравнения моделей, в которых диапазон фактических и прогнозируемых значений одинаков. Хотя MAE обрабатывает экстремальные значения так же, как и нормальные значения, и его нельзя использовать для сравнения моделей с разными диапазонами. MAPE лучше всего подходит для сравнения моделей разных диапазонов и понимания процентной разницы. Однако MAPE асимметричен, более склонен к искажению данных из-за крайних значений и подвержен ошибке деления, если фактическое значение равно нулю.

Поэтому важно понимать вариант использования, чтобы увидеть, какую метрику лучше всего использовать, или использовать обе, чтобы избежать ограничения другой метрики.

MAPE против MAE: какой показатель лучше?

Вопросы по теме