Более пристальный взгляд на понимание того, почему сумма квадратов важна для науки о данных

Недавно я написал статью о линейной регрессии и о том, как она используется в науке о данных. В качестве общего обзора я не слишком углублялся в инструменты или методы, которые использует линейная регрессия. Одним из таких инструментов является сумма квадратов. Сначала я собирался написать просто краткое пояснение в предыдущей статье. Однако существует несколько различных формул, используемых для определения суммы квадратов, поэтому ограничиться одним-двумя предложениями было бы довольно сложно придумать. Вместо этого, и поскольку я нашел ответы интересными, я решил, что пришло время написать еще один блог. Имея это в виду, в сегодняшней статье мы рассмотрим сумму квадратов. Сначала мы опишем, что такое сумма квадратов и почему она используется, а затем мы рассмотрим необходимые формулы и то, что они делают. Итак, без дальнейших проволочек, давайте углубимся в Sum of Squares.

Что такое сумма квадратов?

Сумма квадратов используется не только для описания взаимосвязи между точками данных и линией линейной регрессии, но также и для того, насколько точно эта линия описывает данные. Вы используете ряд формул, чтобы определить, точно ли линия регрессии отображает данные или насколько «хороша» или «плоха» эта линия.

Одно важное замечание: убедитесь, что ваши данные в первую очередь описывают регрессию, а не корреляцию. Вот простой контрольный список, чтобы найти разницу:

  • Регрессия подчеркнет, как одна переменная повлияет на другую, а не просто отношения между переменными.
  • Корреляция не фиксирует несчастный случай, если на нем основана регрессия. Это важно, потому что вместо степени связи следует показывать причину и следствие.
  • В Correlation корреляция между x и y будет такой же, как y и x. В регрессии x и y с y и x дадут разные результаты.
  • Наконец, корреляция будет графически представлять одну точку, тогда как регрессия графически представляет собой линию.

Теперь, когда мы знаем немного больше о сумме квадратов, давайте взглянем на необходимые формулы.

Сумма квадратов Всего

Первая формула, которую мы рассмотрим, — это общая сумма квадратов (обозначается как SST или TSS). TSS находит квадрат разницы между каждой переменной и средним значением.

yi = i-й термин в наборе

ȳ = среднее значение всех элементов в наборе

Это означает, что для каждой переменной вы берете значение и вычитаете среднее, а затем возводите результат в квадрат. Это дает вам расстояние от линейной линии до каждой конкретной переменной. Вы также можете описать TSS как дисперсию наблюдаемых переменных вокруг среднего значения или дисперсию. Итак, цель TSS — измерить общую изменчивость набора данных.

Сумма квадратов регрессии

Следующая формула, о которой мы поговорим, — это регрессия суммы квадратов (обозначается как SSR), также известная как объясненная сумма квадратов (обозначается как ESS). SSR используется для описания разницы между прогнозируемым значением и средним значением зависимой переменной.

ŷi — значение, оцененное по линии регрессии

ȳ — среднее значение выборки

Для начала нам снова понадобится среднее значение. Расчетное значение — это значение, лежащее на линии регрессии. Это означает, что вместо фактического значения каждой переменной возьмите значение того места, где эта переменная будет находиться на линии регрессии. Это скажет нам, насколько хорошо линия соответствует данным. Если SSR соответствует TSS, то эта линия идеально подходит.

Ошибка суммы квадратов

Последняя формула для обсуждения — это ошибка суммы квадратов (обозначается SSE), также известная как остаточная сумма квадратов (RSS). SSE находит разницу между наблюдаемым или фактическим значением переменной и оценочным значением, каким оно должно быть согласно линии регрессии.

Где:

yi — наблюдаемое значение

ŷi — значение, оцененное по линии регрессии

В случае идеального соответствия ошибка будет равна 0, что означает, что оценочное значение совпадает с фактическим значением. Любое значение выше 0 показывает ошибку или степень неточности линии в соответствии со значениями. Чем ниже значение, тем лучше линия регрессии соответствует данным. Высокая остаточная сумма будет демонстрировать, что модель плохо представляет данные.

Теперь, когда мы объяснили все три, мы можем представить их отношения:

Заключение

В сегодняшней статье мы говорили о сумме квадратов. Сначала мы описали, что это такое и для чего оно используется. Далее мы перечислили разницу между корреляцией и регрессией. Наконец, мы рассмотрели используемые формулы (TSS, SSR и SSE) и нашли формулу, представляющую взаимосвязь между ними. Я надеюсь, что «Сумма квадратов» стала немного понятнее и что вы нашли это описание полезным и интересным. Нам не обязательно вычислять все формулы вручную. В таких языках, как R, есть функции для вычисления каждой формулы, поэтому вы можете определить, подходит ли линия регрессии без дополнительной работы. Надеюсь, вам понравилось это объяснение, и, как всегда, увидимся в следующем. Ваше здоровье!

Читайте все мои статьи бесплатно с моей еженедельной рассылкой, спасибо!

Хотите прочитать все статьи на Medium? Станьте членом Medium сегодня!

Ознакомьтесь с некоторыми из моих последних статей:











Использованная литература: