Концепция, которую необходимо знать каждому энтузиасту машинного обучения

Примите во внимание тот факт, что в измерении R-квадрата должна быть какая-то лазейка, из-за которой была введена скорректированная мера R-квадрата. Однако иногда его неправильно интерпретируют, и люди применяют для этого ту же интуицию, что и для нормальной меры R-квадрата, что неверно. Прежде чем мы придем к уродливому математическому выражению скорректированного R-квадрата, нам нужно пройти через различные термины и цели их существования, такие как SST (сумма квадратов - всего), SSR (сумма квадратов - регрессия), SSE (сумма квадратов). - Ошибка) и, наконец, DOF (Степени свободы). Мы начнем с обнаружения проблемы с мерой R-квадрат, а затем перейдем к объяснению, как с помощью скорректированного R-квадрата проблема решается.

Давайте начнем с рассмотрения переменной и попытаемся объяснить связанные с ней вариации с помощью некоторых других переменных.

Произвольная выборка из 15 самцов и нанесение на график их веса:

  1. Только по оси Y (слева)
  2. На плоскости X-Y с высотой по оси X (справа)

Ясно, что существует вариация в весе 15 самцов, и чтобы ее уловить, нам сначала нужно определить центральную тенденцию (среднее значение):

* Мы избегаем вычислений, так как здесь цель состоит в том, чтобы усвоить интуицию

Мы знаем, что мера регистрации общей ошибки минимальна около оптимального постоянного значения, которое достигается приравниванием производной первого порядка RMSE (среднеквадратичной ошибки) к нулю.

* Примечание. Существует множество мер по обнаружению ошибок, и у каждого из них есть свои плюсы и минусы, мы используем здесь RMSE, поскольку он хорошо работает в области регрессии (за исключением выбросов).

В нашем примере оптимальное постоянное значение - это не что иное, как среднее значение выборки. Это также известно как «базовая» модель прогнозирования, поскольку любое объяснение части общей ошибки здесь и далее с использованием внешних переменных вычисляется относительно базовой модели (постоянный прогноз - среднее значение).

Теперь вычисляется сумма квадратов ошибок относительно постоянного базового прогноза (среднего значения выборки):

Из графика видно, что существует положительная корреляция между показателями веса и роста самцов, это означает, что часть общей ошибки (SST) может быть объяснена этим соотношением. Мы начнем с фиксации этой положительной корреляции с помощью прямой линии, проходящей через точки в плоскости X-Y, так что мы оставляем минимальную часть общей ошибки, которую необходимо объяснить, обеспечивая наилучшее соответствие. Этот наиболее подходящий захват измеряется с помощью меры R-квадрата:

SST (общая ошибка) = SSE (необъяснимая часть) + SSR (объясненная часть)

Мера R-квадрат = Объясненная часть общей ошибки / Общая ошибка

Мера R-квадрат = SSR / SST = (SST-SSE) / SST

Мера R-квадрат = 1- SSE / SST

Теоретически, чем выше показатель R-квадрат, тем лучше соответствие, но теперь появляется лазейка, которая делает эту меру обманчивой. Пора обсудить концепцию «степеней свободы»:

Что касается выборочной статистики (логический домен), мы знаем, что для выборочного набора из n точек данных у нас есть возможность без ограничений манипулировать (n-1) точками данных. Когда мы фиксируем эти (n-1) точки данных, n-я точка данных автоматически фиксируется, поскольку среднее значение выборки уже зафиксировано. В нашем примере выше у нас есть 15 точек данных в выборке, поэтому, согласно нашему обсуждению, возможность манипулировать значениями без ограничений будет (15–1) = 14. Это общие степени свободы, доступные с нашим набором выборок. .

Проблема возникает, когда мы рассматриваем дополнительные внешние переменные для дальнейшего объяснения остаточной необъяснимой ошибки в нашей целевой переменной (вес). Предположим, что наряду с измерением высоты, если мы также включим плотность костной ткани в качестве независимой переменной, какое влияние она окажет на значение R-квадрата? Да, вы правы, она увеличится, но что, если мы добавим некоторую переменную, которая не имеет интуитивного смысла для объяснения вариации меры веса?

Мера R-квадрат все еще увеличивается, что неверно, и давайте посмотрим, почему это происходит:

Обратите внимание, как с одной независимой переменной и двумя точками данных в выборке, у меры R-квадрат нет другого выбора, кроме как равняться 1. Именно с дополнительной точкой данных набор данных теперь имеет одну степень свободы. Давайте увеличим количество независимых переменных до двух и визуализируем что-то новое в трехмерном пространстве:

С дополнительной независимой переменной и тремя точками данных мы снова сталкиваемся с той же проблемой, когда мера R-квадрат не имеет другого выбора, кроме как равняться 1 (DOF = 0). Когда мы добавляем к выборке еще одну точку данных, набор данных восстанавливает одну степень свободы.

Эту проблему необходимо решить, изменив формулу меры R-квадрат:

Мы знаем, что с фиксированными точками данных в выборке, если мы увеличим объясняющую переменную на единицу, степень свободы уменьшится на единицу. Кроме того, общая степень свободы, доступная для выборки из n точек данных, составляет (n-1).

Итак, разделение степеней свободы происходит следующим образом:

Всего DOf = n-1

Объясняющие переменные = k

Оставшаяся глубина резкости = n-k-1

Это заставляет нас определить скорректированную меру R-квадрата для решения проблем, обсуждаемых ранее.

Повторяясь снова, R-квадрат продолжает увеличиваться с дополнительными независимыми переменными без учета их способности объяснять вариацию, присутствующую в целевой переменной. Давайте теперь проверим формулу скорректированного R-квадрата:

Скорректированный R-квадрат = 1-SSE (скорректированный) / SST (скорректированный)

-где SSE (отрегулированный) = SSE / (n-k-1), SST (отрегулированный) = SST / (n-1)

Скорректированный R-квадрат = 1- (SSE * (n-1) / SST * (n-k-1))

SSE / SST можно записать как (1-R2)

Упрощая, получаем:

Давайте выясним, как скорректированная мера R-квадрат справляется с проблемой, с которой сталкивается мера R-квадрат (при условии фиксированных точек данных-n):

  1. Знаменатель (n-k-1) учитывает увеличение объясняющих переменных, он уменьшается с увеличением количества объясняющих переменных.
  2. Числитель (1-R2) учитывает силу дополнительных объясняющих переменных, если переменные сильные, R2 увеличивается, а числитель уменьшается.
  3. Это эффект относительного взаимодействия, который отражается в скорректированном R-квадрате.

Что следует помнить:

В отличие от R-квадрата, скорректированный R-квадрат не ограничен между 0 и 1 и не должен интерпретироваться аналогично измерению R-квадрата (он не отражает, какой процент ошибки объясняется)

Скорректированный R-квадрат дает триггер того, когда прогнозная модель теряет способность объяснять дисперсию целевой переменной, и любые дальнейшие добавления переменных не дают ожидаемого вклада.

Прикрепив один образец отчета ниже для сравнения и интуиции:

Обратите внимание, как после добавления 5-й независимой переменной скорректированный R-квадрат падает, тогда как R-квадрат продолжает расти. Таким образом, ожидается, что вы остановитесь на четырех независимых переменных и не станете жертвой потери глубины резкости из-за дополнительных неопределенных переменных. Хорошо, пора закончить этот блог здесь.

Вывод:

Я надеюсь, что это исчерпывающее визуальное объяснение сделало эту тему кристально ясной и построило интуитивное представление о ее концептуальной работе. Главный вывод - никогда не интерпретировать скорректированный R-квадрат как R-квадрат и рассматривать его как триггер, чтобы знать, где прекратить добавление независимых переменных. Я буду и буду освещать похожие темы и постараюсь максимально упростить каждую из них. Следите за предстоящими блогами и посетите мой профиль, чтобы проверить мои предыдущие работы.

Спасибо!!!