или Крестовый поход статистики: танец долга с решимостью

Говорят, что умение объяснить что-то другому человеку — это первый шаг к овладению этим. И как начинающий специалист по данным, R-Squared кажется королем вещей, которые я должен освоить…

Поэтому в этом блоге рассматриваются следующие вопросы:

  • Что такое R-квадрат и что он нам говорит?
  • Как мы можем вывести формулу для R-квадрата интуитивно?
  • Почему R-квадрат всегда находится в диапазоне от 0 до 1?

Что такое R-квадрат и что он нам говорит?

Предположим, у нас есть выходной показатель Y с наблюдаемыми точками данных yᵢ. Тогда самый простой способ предсказать будущие наблюдения — это взять среднее значение наших существующих наблюдений.

Обратите внимание, что эта базовая модель всегда предсказывает одно и то же значение для будущих наблюдений. Также обратите внимание, что этот прогноз не зависит от значения x. Излишне говорить, что это не очень хорошая модель.

Чтобы улучшить эту ситуацию, предположим, что вместо этого мы создадим модель линейной регрессии, f, для прогнозирования значений Y на основе наблюдаемых точек данных, yᵢ, и связанные с ними значения x.

Затем нам, вероятно, нужна некоторая статистика (назовем ее R-квадрат), которая скажет нам, насколько хороша наша модель. В частности, насколько лучше наша модель f по сравнению с «базовой средней моделью»?

R-Squared говорит нам: "Какую часть отклонения от среднего учитывает наша модель?"

Если модель учитывает 100 % дисперсии (т. е. R-квадрат = 1), то можно сказать, что она прекрасно объясняет наблюдаемые точки данных.

Если модель учитывает 0% дисперсии (т. е. R-квадрат = 0), то мы можем сказать, что она точно ничего не объясняет в наблюдаемых точках данных.

В реальном мире R-Squared хорошо облегчает сравнение между моделями. Однако определение «хорошего» значения R-квадрата само по себе немного скользко. Как правило, R-квадрат выше 0,6 делает модель достойной вашего внимания, хотя есть и другие вещи, которые следует учитывать:

  • Любая область, которая пытается предсказать человеческое поведение, например психология, обычно имеет значения R-квадрата ниже 0,5. Людей по своей природе трудно предсказать!
  • Модель с высоким значением R-квадрата может страдать от других проблем, таких как переобучение. R-квадрат — это лишь один из многих способов, с помощью которых специалист по данным может оценить достоверность своей модели.

Как мы можем вывести формулу для R-квадрата интуитивно?

Вместо того, чтобы погружаться прямо в море алгебры, я хочу думать о R-квадрате образно.

Мы уже знаем, что регрессия создаст модель, которая минимизирует остатки (т. е. разницу между предсказанными моделью значениями y и фактическими наблюдаемыми значениями y). Поэтому рассмотрение остатков наших моделей кажется разумным началом.

Остатки для нашей модели f (синие стрелки на левой диаграмме) можно рассматривать как биты наблюдаемых значений, которые наша модель не может объяснить.

Наступает момент, когда, как только мы начинаем суммировать эти остатки как часть формулы, полезно суммировать их квадраты. Это гарантирует, что нам не придется иметь дело с отрицательными значениями. Это также усилит влияние больших отдельных ошибок, что сделает более очевидным, когда модель не дает хороших прогнозов.

Опять же, мы можем визуализировать эти квадраты остатков как для нашей модели, так и для базового случая. Здесь синие квадраты — это еще один способ визуализации части ошибки, которую наша модель не может объяснить. Общая площадь синих квадратов может быть математически определена как:

Далее, сумма оранжевых квадратов может быть представлена ​​как:

Мы хотели, чтобы R-квадрат был сравнением нашей модели с базовым случаем. Мы можем сделать это сравнение, взяв площадь синих квадратов как долю площади оранжевых квадратов:

Таким образом, это выражение говорит нам, какая доля отклонения от среднего, ȳ, не объясняется моделью. Таким образом, доля дисперсии, которая объясняется моделью или легендарным R-квадратом, может быть представлена ​​следующим образом:

Почему R-квадрат всегда находится в диапазоне от 0 до 1?

Одно из наиболее полезных свойств R-квадрата заключается в том, что оно находится в диапазоне от 0 до 1. Это означает, что мы можем легко сравнивать разные модели и решать, какая из них лучше объясняет отклонение от среднего.

Конечно, из вышеизложенного мы знаем, что R-квадрат можно выразить следующим образом:

Таким образом, чтобы R-Squared был ограничен между 0 и 1, мы требуем, чтобы (SSres / SStot) сам был между 0 и 1. Это происходит, если:

  1. SSres ≤ SStot(для R-квадрат должен быть больше или равен 0)
  2. SSres и SStot должны быть как положительными, так и отрицательными (для R-квадрат должен быть меньше или равен 1).

Давайте посмотрим на это по очереди. Напомним, что:

Для (1) мы можем сделать интуитивный аргумент. Помните, что SStotпредставляет разрывы между наблюдаемыми значениями y и их средним значением ȳ.

Учитывая, что y = ȳ представляет собой прямую линию (в частности, горизонтальную линию, пересекающую плоскость x-y), y = ȳ сама по себе является линейной моделью для нашего набора данных. Это, конечно, не лучшая модель, но тем не менее это модель.

Теперь давайте подумаем о модели, для которой мы будем вычислять R-квадрат, — модели, которая создает условия f и, следовательно, создает SSres. Эта модель была бы создана с помощью регрессии, и по определению мы знаем, что процесс регрессии создает модель, которая минимизирует остатки для набора данных.

У нас есть два возможных случая:

  • Регрессия дает y = ȳ как модель, минимизирующую остатки. Таким образом, у нас есть SSres = SStot, поскольку fᵢ = ȳ по всему набору данных.
  • Регрессия дает другую модель. Поскольку регрессия создает модель, которая минимизирует невязки, невязки этой модели должны быть меньше, чем в случае y = ȳ. Поэтому у нас должно быть SSres ‹SStot.

Таким образом, у нас SSres ≤ SStot.

Следовательно, R-квадрат всегда будет больше или равен 0.

Для (2) мы знаем, что и SSres, и SStotзадаются как сумма квадратов (см. выше ). Поскольку квадратные числа всегда положительны, мы знаем, что и SSres, и SStot всегда будут положительными.

Следовательно, R-квадрат всегда будет меньше или равен 1.