Линейный метод подбора с учителем наименьших квадратов — это простейшая и наиболее часто применяемая форма линейной регрессии, которая обеспечивает решение проблемы поиска наилучшей прямой линии, проходящей через набор точек.

Наша общая модель линейной регрессии выглядит так:

Входные данные представляют собой вектор признаков (краткое число x1, x2, ⋯ , xk полные значения )
Выходные данные представляют собой скаляр y .

y = w0 + w1*x1 + w2*x2 + w3*x3 + … + wk*xk

w0 — это смещение.

Зачем нужна предвзятость?

В линейной регрессии без члена смещения наше решение должно проходить через начало координат. То есть, когда все наши функции равны нулю, наше прогнозируемое значение также должно быть равно нулю. Однако это может быть не тот ответ, который предлагают данные обучения. Добавление веса смещения, не зависящего ни от одного из признаков, позволяет гиперплоскости, описываемой изученными весами, легче соответствовать данным, которые не проходят через начало координат.

Теперь рассмотрим очень простую линейную модель с двумя переменными. Температура является независимой переменной, и мы хотим выяснить влияние температуры на продажи (зависимая переменная).

Двенадцать точек данных имеют форму (x, Y). Координата x представляет температуру в градусах Цельсия, а координата Y представляет продажи в долларах. Самый первый шаг — визуализировать данные — изобразить их в виде графика (как показано выше). В этом случае возможно построение графика, поскольку мы рассматриваем только две переменные.

Наша цель — найти линию, которая наиболее подходит для приведенных выше данных, как показано выше.

Как рассчитывается эта линия наилучшего соответствия?

Любая строка имеет вид:

y = mx +c

Где m — наклон линии (tan угла, образуемого линией с осью x, рассчитанной против часовой стрелки) и c — это y-перехват.

Здесь y представляет продажи для определенной температуры x.

Таким образом, наша линия best fit также будет иметь видy = mx + c.

Рассмотрим первую точку данных (x1, Y1):

x1: фактическое значение температуры в градусах Цельсия.

Y1: фактическая стоимость продаж в долларах, соответствующая x1.

y1 = m*x1 + c: прогнозируемое значение продаж, соответствующее x1 согласно линии наилучшего соответствия.

E1 = y1 — Y1

E1 – это первый термин ошибки.

ПРИМЕЧАНИЕ. В статистике, когда мы используем термин «линейная модель», мы не обязательно описываем прямую линию.

Обе фигуры на этом рисунке являются «линейными»:

Линейный в статистике используется для описания параметров модели, которую мы используем. Линейный означает, что ожидается, что ответ (переменная y) будет линейной комбинацией независимых переменных (либо дискретных, либо непрерывных). Линейный означает, что независимые переменные являются аддитивными.

Когда мы говорим, что модель является линейной, это утверждение на самом деле неполно. Для линейной регрессии необходимо указать и проверить, является ли модель линейной относительнопараметров(w0, w1, w2, …, wk).

Возвращаясь к ошибкам. Наша цель состоит в том, чтобы уменьшить эти ошибки и, следовательно, ошибки наименьших квадратов.

Почему мы используем «квадратные» ошибки, а не более высокие степени или абсолютные значения ошибок?

Вот две причины:

  1. При более высоких мощностях ошибка выброса будет усиливаться еще больше. В результате линия «наилучшего соответствия» больше будет стягиваться к выбросу, и это больше не будет наилучшим соответствием.
  2. Минимизировать квадратичную функцию легко — нужно просто продифференцировать ее и приравнять производные к нулю, что приведет к линейному уравнению, для решения которого у нас есть сотни приемов.

Оставайтесь с нами, чтобы узнать больше!