Объяснение концепций машинного обучения

Расширенные метрики для понимания моделей регрессии на простом английском языке

Интервьюеры по науке о данных ожидают интуитивного понимания этих показателей.

Используемые базовые метрики обсуждались в предыдущем посте, где я обсуждал MAE, MSE, RMSE, RMSLE и R-Squared. Этот пост посвящен скорректированному R в квадрате, предсказанному R в квадрате, графикам остатков, значениям P для переменных, коэффициентам регрессии и F-статистике.

Скорректированный R в квадрате:

В предыдущем посте R Squared объясняется как количество вариаций, объясняемых моделью, или насколько лучше регрессионная модель по сравнению со средней моделью. Хотя этот показатель количественно определяет, насколько хорошо модель работает, существует ограничение: он всегда увеличивается по мере увеличения количества входных параметров модели. Даже добавляя кучу совершенно не связанных функций, которые случайным образом уменьшают ошибку (сумма квадратов ошибок по линии регрессии), можно продолжать увеличивать R-квадрат таким образом, что в основном совпадает со статистикой.

Чтобы устранить это ограничение, можно использовать метрику Скорректированный R-квадрат, где корректировка основана на степенях свободы.

В формуле R-Squared, если вместо SSresiduals & SStotal используются SS-остатки на единицу степени свободы и SStotal на единицу степени свободы, вычисляется скорректированная метрика R-Squared. Если в регрессионную модель добавляются дополнительные функции с тем же самым n, то nK (K - количество параметры, подлежащие оценке) понизятся SS Остаточный увеличивается, в целом уменьшается Скорректированный R-квадрат. Чтобы эта дополнительная переменная принесла некоторую ценность, не повредив Скорректированный R-квадрат, она должна в некоторой степени уменьшить остаток SS в числителе. Знаменатель представляет собой сумму квадратов ошибок для средней модели, и, следовательно, у нее есть только 1 параметр для оценки. n-K равно n-1 здесь.

Когда это использовать? Если вы сравниваете две модели с разным количеством параметров, скорректированный R-квадрат можно использовать для сравнения яблок с яблоками. Или, если вы повторяете модель, добавляя дополнительные функции, эту метрику можно использовать, чтобы увидеть, приносят ли добавленные новые функции какую-то ценность.

Если вы уже знаете, что такое степени свободы? Пожалуйста, пропустите.

Проще говоря, это можно рассматривать как дополнительную информацию о данных. Если у вас есть три неизвестных и три уравнения, с помощью линейной алгебры можно вычислить, что это за три неизвестных. Но если существует более трех уравнений для трех неизвестных, может оказаться невозможным найти три неизвестных, которые полностью удовлетворяют всем уравнениям. Итак, нацелено на лучшее несовершенное решение.

Проиллюстрировать,

Если бы это было так, значения для x, y, z никогда не могли бы принимать другие значения, кроме тех, которые получены здесь. Для этих трех значений нет свободы изменения, и, следовательно, степень свободы равна 0. Если мы вводим другое наблюдение или уравнение с тем же числом переменных, мы вводим вариацию. Теперь у x, y, z есть некоторая свобода изменения. Насколько свобода варьироваться? n-K единиц. Для получения значений x, y, z необходимы три уравнения, но любые данные больше этого - это степени свободы.

Прогнозируемый R в квадрате:

Это отличный показатель, позволяющий увидеть, не переоснащается ли ваша модель или, другими словами, насколько хорошо ваша модель подходит для нового наблюдения. Если вы слышали о методе оценки перекрестной проверки, вы можете увидеть, как эта метрика имеет сходство с этим методом.

Первоначально необходимо рассчитать сумму квадратов остаточных ошибок (PRESS) следующим образом.

  1. Продолжайте наблюдать в стороне от всех доступных данных, скажем, всего n строк.
  2. Постройте модель с n-1 строками
  3. Используйте эту модель для прогнозирования целевой переменной оставленных наблюдений.
  4. Вычислите квадрат разницы между наблюдаемым и прогнозируемым значением, который в данном случае будет ошибкой.
  5. Повторите вышеуказанные четыре шага, пока каждая точка данных не будет использоваться в качестве тестового примера и не будет получено n ошибок.
  6. Суммируйте все эти n ошибок, чтобы получить НАЖАТЬ.

Как только мы получим PRESS, используйте это вместо суммы квадратов ошибок по регрессии в формуле R-квадрата, чтобы получить

Прогнозируемый R ² = 1 - (PRESS / SSEM)

Для получения дополнительной информации о R-квадрате, проверьте это

Остаточные участки:

Обычно диаграмма рассеяния с прогнозируемыми значениями по оси x и ошибкой или невязкой по оси y называется графиком невязок (ось X по остаточной величине также может быть любой другой независимой переменной). Наблюдаемый вами разброс должен выглядеть случайным, как показано ниже.

(Значения по осям X и Y могут быть стандартизированы вместо фактических значений)

Если кажется, что график имеет определенную форму, такую ​​как конус или кривая, мы можем сказать, что ошибка модели увеличивается с увеличением значения ввода. Основная цель модели - захватить сигнал вне сигнала + шум и показать шум на остаточных графиках. Шум должен быть шумным. Если у него есть шаблон, это означает, что мы не моделируем полностью захват сигнала.

Значения P:

Я думаю, можно с уверенностью предположить, что вы встретили следующее в результатах регрессии.

Здесь каждый коэффициент имеет связанное с ним P-значение. При проверке гипотез значение P в основном используется для отклонения / не отклонения нулевой гипотезы. Но что он здесь делает?

Обычно об этом не очень подробно упоминают, но здесь тоже происходит проверка гипотез. Каждый коэффициент в уравнении регрессии оказывает определенное влияние, варьирующееся от нулевого до максимального, на результат / прогноз. Итак, нулевая и альтернативная гипотеза может быть сформулирована следующим образом.

H0: нулевая гипотеза: коэффициент (x) не влияет на результат

Ha: Альтернативная гипотеза: коэффициент (x) влияет на результат.

Если p-значение меньше некоторого порога (0,05. 0,01. 0,1), это означает, что мы можем отклонить нулевую гипотезу и сказать, что коэффициент / характеристика / предиктор оказывает некоторое влияние на результат. Если значение p больше порогового значения, характеристики статистически не значимы и, следовательно, не влияют на прогноз. (Это может быть еще один мини-пост, чтобы на самом деле понять, как рассчитывается это p-значение)

Коэффициенты регрессии:

Когда вы видите такое уравнение регрессии

y = a0x0 + a1x1 + a2x2… (тревога)

Коэффициенты регрессии a0, a1, a2 .. вносят вклад в предсказание y в различных величинах. Каждый из этих коэффициентов представляет изменение в предсказании или предсказанном значении, когда есть изменение единицы в одной из переменных-предсказателей (x0, x1, x2…), когда остальные переменные-предсказатели остаются неизменными.

Например,

Y (цена дома) = 150 * x1 (кв. Фут) + 1300 * x2 (количество спален) + 1251 * x3 (количество ванных комнат) + 1214

Здесь, если у вас есть приведенное выше уравнение для оценки цен на дом, два дома с одинаковой площадью и одинаковым количеством спален, но с разным количеством ванных комнат будут иметь разное значение x3, а разница в цене дома будет 1251 * (x3 (Home1 ) - x3 (Дом2)). Если это 1251 * (Разница в прогнозирующей переменной равна 1, то это изменение единицы, и 1251 будет представлять изменение прогнозируемой стоимости или цены дома.

Я рассмотрел часто используемые показатели, но есть еще много других, которые можно обсудить. Если есть что-нибудь, что могло бы стать хорошим дополнением к этому сообщению, прокомментируйте.

Кроме того, вот еще одно сообщение в блоге neptune.ai, которое я рекомендую прочитать: https://neptune.ai/blog/performance-metrics-in-machine-learning-complete-guide