Знаете ли вы, что линию наилучшего соответствия иногда называют линией тренда или линией регрессии?

Да !!

Фактически, когда мы представляем данные в виде диаграммы рассеяния, мы можем видеть, как одна переменная влияет на другую. И когда данные следуют аналогичному шаблону, эта взаимосвязь называется корреляцией.

Мы представляем эту корреляцию с помощью линий тренда или линий наилучшего соответствия, которые помогают нам аппроксимировать набор точек данных.

Сначала мы должны построить диаграмму разброса по заданным данным и попытаться понять корреляцию.

Затем мы рисуем линию, которая, по-видимому, наиболее точно соответствует корреляции. Мы должны построить линию, которая лучше всего представляет тренд. Скорее всего, мы смотрим на медианные значения, поэтому линию тренда иногда называют средней линией соответствия.

Затем мы находим 2 точки, лежащие на линии регрессии, и вычисляем наклон m.

Наконец, мы используем форму Point Slope Form, чтобы написать линейное уравнение, которое представляет линию наилучшего соответствия.

На приведенном выше графике рассеяния зеленая линия является линией наилучшего соответствия.

Теперь, в реальном сценарии, не все точки данных будут наиболее подходящими для нас. Следовательно, будут точки выше и ниже нашей линии. Эта ошибка в нашем прогнозе называется невязкой и представляет собой расстояние по вертикали между точкой данных и линией регрессии. Чем лучше линия соответствует данным, тем меньше остатки (в среднем). Другими словами, некоторые из фактических значений будут больше, чем их прогнозируемое значение (они упадут выше линии), а некоторые из фактических значений будут меньше, чем их прогнозируемые значения (они упадут ниже черты).

Мы должны продумать какую-то комбинацию всех остатков и попытаться минимизировать ее.

Некоторые из ошибок будут положительными, а некоторые - отрицательными. Итак, если мы сложим все ошибки, сумма будет равна нулю.

Итак, чтобы измерить общую ошибку, мы возводим ошибки в квадрат и находим линию, которая минимизирует эту сумму квадратов ошибок. Когда мы возводим ошибку в квадрат, ошибки станут большими, и сумма квадратов ошибок будет составлять большую долю от Sum.

Наблюдаемое / Фактическое Y - Прогнозируемое Y = Ошибка

Y — Y’ = Y-Y’

Затем возьмем квадрат ошибки = (Y-Y ’) ²

Сумма всех квадратов ошибок = среднеквадратичная ошибка.

Этот метод, метод наименьших квадратов, находит значения точки пересечения (b) и коэффициента наклона (m), который минимизирует сумму квадратов ошибок.

Этот метод очень ценен, потому что он учитывает значительные выбросы - точки, которые находятся далеко от модели.

Следовательно, когда мы используем этот метод для вычисления нашей линии уравнения наилучшего соответствия, Наша линия наилучшего соответствия действительно будет Лучшей!

Спасибо, что зашли !

Первоначально опубликовано на https://www.numpyninja.com 19 сентября 2020 г.