Интуиция, стоящая за R2 и другими метриками оценки регрессии

Существует множество показателей для оценки регрессионной модели. Но часто они кажутся загадочными. Ниже предпринята попытка интуитивно понять две часто используемые такие метрики: средняя/медианная абсолютная ошибка и R2 (или коэффициент детерминации).

Средняя точность модели (средняя/средняя абсолютная ошибка)

Предположим, у вас есть модель, которая может прогнозировать цены на жилье. Естественно, вы не будете ему доверять, пока не оцените его и не установите некоторую уверенность в ожидаемой ошибке. Итак, вы вводите характеристики (такие как номер комнаты, размер участка и т. д.) для определенного дома и сравниваете прогнозируемую (скажем, 130 000) с его фактической (скажем, 120 000) ценой. В данном конкретном случае можно сказать, что модель завысила цену на 10 тысяч. Но одной точки недостаточно, чтобы сделать общее заявление о точности ожидаемой ошибки для данной модели. Итак, мы вводим характеристики еще для 1000 домов и для каждого из них вычисляем ошибку, то есть разницу между прогнозируемой и фактической ценой).

Из описательной статистики мы знаем, что есть разные способы суммировать эти 1000 ошибок. Например, мы можем обобщить общую тенденцию набора данных по среднему или медиане или даже нарисовать блок-диаграмму, чтобы понять распределение ошибки.

Поскольку нас интересует числовая мера (а не визуализация), использование «среднего» как способа суммировать все наблюдаемые ошибки имеет смысл. Таким образом, мы можем вычислить среднюю ошибку.

Однако есть проблема. Что делать, если ошибка составляет -10К (т.е. заниженная оценка) для одного дома и 10К (т.е. завышенная оценка) для другого. Тогда означает, что ошибка будет равна 0. Интуитивно это не имеет смысла. Более разумно сказать, что ожидаемая ошибка составляет 10 КБ, т. е. мы работаем с абсолютной ошибкой, а не со знаком (недооценка/переоценка). Таким образом, мы получили все компоненты нашей первой метрики, а именно Mean Absolute Error. Подводя итог, это называется средней абсолютной ошибкой, потому что:

Ошибка: потому что мы сравниваем фактическую цену дома с прогнозируемой ценой дома.
Абсолют: потому что мы просто думаем об ошибке, а не о том, недооценена она или перепрогнозирована.
Среднее: потому что мы используем «среднее» как способ описать основную тенденцию наблюдаемой ошибки.

Теперь мы знаем, что среднее значение чувствительно к выбросам. Поэтому иногда вместо среднего мы используем медиану, и эта метрика известна как абсолютная ошибка медианы. Преимущество «средняя/медианная абсолютная ошибка» заключается в том, что число легко понять. Например, если средняя абсолютная ошибка модели составляет 20 000, то мы знаем, что если прогнозируемая цена равна 200 000, то фактическая цена скорее всего находится в диапазоне от 180 000 до 220 000.

Может ли быть лучше (R2)

Специалисты по обработке и анализу данных заинтересованы не только в количественной оценке ошибки, но и в том, чтобы определить, можно ли улучшить модель. Чтобы ответить на этот вопрос, давайте сначала установим лучшую и худшую модели.

Лучшая модель
Теоретически лучшей моделью является модель, для которой абсолютная ошибка равна нулю для всех тестовых случаев. Как показано на графике ниже, если мы отобразим абсолютную ошибку по оси x и кумулятивный процент домов по оси y, то точка, скажем (50K, 0,6), указывает, что для 60% домов абсолютная ошибка меньше или равно 50 тыс.

Итак, как будет выглядеть наилучшая модель с учетом этого графика?
Поскольку абсолютная ошибка всегда равна нулю, график будет представлять собой просто вертикальную линию, начинающуюся с 0 по оси X и продолжающуюся до 100 % по оси Y.

Худшая модель
Не путайте слово «худшая» со словом «свалка». Обычно для построения регрессионной модели у нас есть целевая переменная (цена дома) и определенные функции или переменные-предикторы, такие как количество комнат, размер участка и т. д. Но что, если доступных функций нет. Например, единственная предоставленная информация — это цены на 10 000 случайно выбранных домов. Мы все еще можем построить модель, просто основываясь на этой ограниченной информации. Например, мы можем вычислить среднюю цену дома на основе 10 000 обучающих выборок, которые у нас есть. Теперь наша модель будет просто возвращать это среднее значение. Допустим, среднее значение равно 215K. Если мы спросим у этой модели, какова будет цена дома с участком площадью 5000 кв.м, она вернет просто 215 тысяч. Назовем эту среднюю модель.

Теоретически можно показать, что при отсутствии другой доступной информации модель среднего значения минимизирует ошибку. Интуитивно это имеет смысл, поскольку мы часто склонны использовать среднее значение, когда у нас нет другой информации. На приведенном ниже графике показано, как будет выглядеть кривая для средней модели.

Определение возможностей для улучшения
На приведенном выше графике мы можем легко заметить несколько моментов. Во-первых, по мере того, как наша модель становится лучше, она будет приближаться к лучшей модели, и, следовательно, область между лучшей моделью и нашей моделью будет уменьшаться. С другой стороны, площадь между худшей моделью и нашей моделью будет увеличиваться. Однако общая площадь, то есть площадь между лучшей и худшей моделью, остается неизменной. Назовем эту область возможностью улучшения. По мере того, как наша модель становится лучше, тем больше возможностей для улучшения она охватывает. Это именно то, что фиксирует метрика R2. Он показывает, какую часть общих возможностей улучшения покрывает наша модель, т.е.

Как только мы поймем вышеприведенную интуицию, также легко понять, почему часто возникает путаница в отношении того, находится ли R2 в диапазоне от 0 до 1 (как указано в Википедии) или от -1 до 1 (как в библиотеке sklearn). Если мы воспользуемся формулой 1 на приведенном выше графике, то R2 всегда будет положительным и находится в диапазоне от 0 до 1. Однако это не говорит о том, где находится наша модель по сравнению со средней моделью. Неявно предполагается, что наша модель всегда будет лучше средней модели и, следовательно, будет находиться между средней моделью и лучшей моделью.

Но на практике возможно, что наша модель хуже средней модели и попадает в правую часть средней модели. В этом случае

будет больше, чем

и, следовательно, R2 будет отрицательным.

Я надеюсь, что теперь мы можем оценить красоту R2 и понять интуицию, стоящую за ней.

Первоначально опубликовано на http://ragrawal.wordpress.com 6 мая 2017 г.

Интуиция, стоящая за R2 и другими метриками оценки регрессии

Средняя точность модели (средняя/средняя абсолютная ошибка)

Может ли быть лучше (R2)

Вопросы по теме