Зачем заботиться о регрессиях?

Регрессии помогают нам делать прогнозы. По крайней мере, они помогают нам делать обоснованные предположения.

Регрессии помогают нам ответить на такие вопросы, как:

  1. На каждый лишний доллар, который бизнес тратит на маркетинг, насколько увеличиваются продажи?
  2. Насколько меняется ваш балл SAT/GPA за каждый дополнительный час, потраченный на учебу?
  3. Насколько увеличивается количество голов/очков за игру с каждой дополнительной тренировкой?

Регрессии помогают нам ответить на эти вопросы.

Отношение между рекламой $$ и продажами.

Регрессии дают нам уравнение для линий на двух приведенных выше графиках.

Что такое простая линейная регрессия?

Простая линейная регрессия — это статистический метод, который позволяет нам обобщать и изучать отношения между двумя непрерывными (количественными) переменными.

Линейка наилучшего соответствия

Прежде чем мы узнаем связь между двумя статистическими переменными, нам нужно получить сами данные.

Получив данные, мы наносим их на график, чтобы получить точечный график.

Теперь вопрос в том, как нам вывести уравнение на прямую?

  • yi: обозначает наблюдаемый отклик для экспериментальной единицы i.
  • xi: обозначает значение предиктора для экспериментальной единицы i.
  • ^yi: прогнозируемый ответ (или подобранное значение) для экспериментальной единицы i

Это означает, что для любого заданного значения xi мы прогнозируем значение y как ^yi.

Учитывая, что наш прогноз не будет идеальным, между нашим предсказанным значением ^yi и фактическим значением yi будет некоторая ошибка или разница.

Наша цель – свести к минимуму эту ошибку! Чем меньше ошибок, тем точнее будет наша линия предсказания.

Вот формула ошибки:

Мы хотим свести к минимуму ei.

Но так как у нас много точек наблюдения, у нас много значений ошибки. Таким образом, мы хотим уменьшить сумму ошибок.

Причина возведения ошибок в квадрат состоит в том, чтобы преобразовать все значения ошибок в положительные. Это потому, что ^yi может быть больше, чем yi. Это будет тот случай, когда наблюдаемое значение ниже прогнозируемой линии.

Если бы мы не возводили значения в квадрат, сумма всех ошибок всегда была бы равна нулю.

Теперь, используя алгебру, подставляем значение ^yi.

К счастью, люди намного умнее меня позаботились о грязной математической работе. Поскольку мы уменьшаем квадрат ошибок, эту линию обычно называют «линией регрессии наименьших квадратов».

Решив приведенное выше уравнение, мы получим значение для bo и b1.

Эти две переменные дают нам уравнение для линии наилучшего соответствия.

К счастью для нас, такое программное обеспечение, как Stata, рассчитает для нас bo и b1, учитывая, что мы предоставляем ему необработанные данные.

Теперь, вооружившись линией наилучшего соответствия, мы готовы сделать обоснованные предположения о нашей модели.

Наконец, чтобы сделать наши прогнозы более точными, мы можем добавить больше переменных в наши модели, превратив это в множественную линейную регрессию.