В этой статье вы интуитивно узнаете, как работают метрики R2 и Adjusted-R2.

R2 широко используется в качестве оценочной метрики для задач регрессионного машинного обучения. Он выясняет, какая часть дисперсии целевого признака (зависимого признака) может быть объяснена моделью машинного обучения (модель в основном является функцией независимых признаков).

Теперь вам может быть интересно, какая польза от знания дисперсии целевого признака. Чтобы ответить на этот вопрос, нам нужно знать, как можно воспринимать дисперсию как инструмент измерения информации. По сути, чем выше дисперсия вещи, тем больше информации мы имеем об этой вещи.

Чтобы понять эту концепцию, давайте возьмем один пример. Допустим, мы играем в игру, в которой трое наших друзей закрыли лица, и теперь нам нужно распознать, кто есть кто, только по их росту. Если разница в росте (~ разница в росте) между тремя друзьями достаточно велика, то узнать всех друзей будет чрезвычайно легко. С другой стороны, если у друзей сопоставимый рост, будет довольно сложно распознать их только по росту. В этом случае нам нужно смотреть на некоторые другие критерии, такие как вес.

Так вот, когда у нас была большая разница в росте, мы могли легко узнать троих друзей. Этот пример объясняет, как дисперсию можно рассматривать как информационную меру.

Метрика R2

R2 сравнивает нашу обученную модель с моделью, которая всегда выводит среднее значение точек данных (насколько хороша желтая линия по сравнению с зеленой линией).

Чтобы узнать метрику R2, нам нужно знать два значения:

  1. Дисперсия значений целевых признаков относительно среднего значения данных (средняя дисперсия), т. е. дисперсия серых точек относительно зеленой линии.
  2. Дисперсия целевого объекта вокруг наиболее подходящей линии (дисперсия модели), т. е. дисперсия серых точек по отношению к желтой линии.

Средняя дисперсия также может быть интерпретирована как дисперсия целевого признака, объясненная моделью, которая выводит среднее значение данных для каждого входа. Это можно объяснить горизонтальной линией, пересекающей ось Y в среднем значении всех координат Y наших точек данных (зеленая линия на рисунке).

Дисперсия модели может быть представлена ​​как дисперсия целевого признака, объясненная нашей обученной моделью для заданных данных (желтая линия на рисунке).

Как интерпретировать R2

Значение R2 обозначает долю дисперсии целевого признака, которую можно объяснить вашей моделью. Чем больше доля дисперсии объяснена, тем лучше ваша модель. Так, значение R2, близкое к 1, соответствует хорошей модели, а значение, близкое к — плохой модели.

Допустим, значение R2 нашей модели равно 0,85. Это утверждение означает, что наша обученная модель объясняет 85% дисперсии целевого признака.

Возможные значения R2

  1. R2 существует между 0 и 1 (оба включительно). Иногда он может быть и отрицательным. Этот негативный случай может произойти, когда мы обучаем модель на обучающих данных, а затем тестируем обученную модель на новых данных. Это связано с тем, что не всегда будет так, что дисперсия прогнозов новых данных будет меньше, чем дисперсия средней модели. Мы всегда будем получать положительное значение R2, если будем тренироваться на обучающих данных и снова тестировать нашу модель на обучающих данных.
  2. R2 = 0 => Обученная модель эквивалентна средней модели (очень плохая модель)
  3. Максимальное значение R2 равно 1.

Проблема с R2

R2 увеличивается каждый раз, когда мы добавляем новую независимую функцию к обучающим данным. Это произойдет, даже если мы добавим в обучающие данные какую-нибудь бесполезную или случайную функцию. Это связано с тем, что очень легко найти небольшую корреляцию и в случайных данных. Но эта небольшая корреляция может привести к переобучению нашей модели. Итак, нам нужно иметь показатель производительности, который не будет увеличиваться при такой небольшой корреляции. Эта проблема решается с помощью другого показателя производительности, известного как Adjusted-R2.

Скорректированная метрика R2

Основная идея скорректированного R2 состоит в том, чтобы снизить оценку, поскольку мы продолжаем добавлять новые функции в модель.

Знаменатель (n-m-1) уменьшается по мере увеличения значения m. Так, если мы не обнаружим значительного увеличения R2, ​​то значение всего выражения не увеличится или даже может уменьшиться.

Суммируя,

Небольшое увеличение значения R2 (из-за добавления несущественной функции) =› скорректированное значение R2 остается почти таким же или может даже уменьшиться

Значительное увеличение значения R2 (из-за добавления важной функции) =› скорректированное значение R2 значительно увеличивается

Outro

Надеюсь, вам понравилась эта статья. Следуйте за мной на среду, чтобы прочитать больше таких статей.

Свяжитесь со мной в LinkedIn

Узнайте обо мне больше на Сайт

Пишите мне на [email protected]

Использованная литература:

Объяснение отрицательного R-квадрата. Почему и когда R-квадрат,… | Тан Нянь Вэй | На пути к науке о данных

Анализ главных компонентов (PCA) с визуальным объяснением с нулевой математикой | Кейси Ченг | На пути к науке о данных

(1882) Метрики регрессии | MSE, MAE и RMSE | Оценка R2 и скорректированная оценка R2 — YouTube

«(1882) Р-квадрат, понятное объяснение!!! - YouTube"