Что такое линейная регрессия?

Линейная регрессия - один из самых простых и популярных алгоритмов машинного обучения. Это статистический метод (в основном использующий статистику), используемый для прогнозного анализа. Линейная регрессия используется для прогнозирования непрерывных или числовых переменных, таких как возраст, цена продукта и т. Д. Модель линейной регрессии показывает линейную зависимость между зависимой переменной (y) и независимой переменной (x). Обратитесь к приведенному выше графику для справки.

Если вы занимаетесь машинным обучением, вам могут быть интересны сообщения, на которые я ссылаюсь ниже. В этих статьях я рассказываю о том, что такое машинное обучение, как попасть в машинное обучение и о различных типах алгоритмов машинного обучения:





Математически мы можем представить линейную регрессию в виде формулы ниже:

y= a0+a1x+ ε

Где:

  • Y = зависимая переменная
  • a0 = коэффициент линейной регрессии
  • a1 = Перехват линии
  • ε = Случайная ошибка

Типы линейной регрессии

Линейную регрессию можно разделить на две категории:

Простая линейная регрессия. Простая линейная регрессия - это когда одна независимая переменная используется для прогнозирования числового значения зависимой переменной.

Множественная линейная регрессия. Множественная линейная регрессия - это когда несколько независимых переменных используются для прогнозирования числового значения одной зависимой переменной.

Линия линейной регрессии

Направление вашей линии линейной регрессии определяет, будет ли корреляция между вашими независимыми и зависимыми переменными положительной или отрицательной.

Если линия линейной регрессии положительна (идет вверх слева направо), это показывает, что существует положительная корреляция между независимой и зависимой переменной (по мере увеличения независимой переменной увеличивается и зависимая переменная).

Если линия линейной регрессии отрицательная (идет вниз слева направо), это показывает, что существует отрицательная корреляция между независимой и зависимой переменной (по мере увеличения независимой переменной зависимая переменная уменьшается).

Основная цель линейной регрессии - найти линию наилучшего соответствия (эта линия гипотетически проходит через большинство точек данных на графике, что позволяет предсказать следующее значение нашей зависимой переменной). Ошибка между фактическим значением и значением, предсказанным нашей нарисованной линией наилучшего соответствия, должна быть сведена к минимуму, чтобы гарантировать точное предсказание нашего зависимого числового значения.

Поскольку разные значения наших коэффициентов, иначе известные как веса (в данном случае это будут a0 и a1), при построении графика мы получим разные линии регрессии (лучше всего - подходящие линии), нам нужно вычислить наилучшие значения a0 и a1, чтобы получить наиболее подходящую линию. Именно здесь мы реализуем то, что мы называем машинным обучением, функцию затрат.

Функция стоимости

Функция стоимости оптимизирует коэффициент регрессии (a0 и a1). Он также измеряет, насколько хорошо работает модель линейной регрессии. В линейной регрессии мы используем функцию стоимости среднеквадратичной ошибки (MSE). Эта функция является средним квадратом ошибки, возникшей между прогнозируемыми и фактическими значениями. Формула для функции среднеквадратичной ошибки:

Где:

  • N = общее количество наблюдений
  • y1 = Фактическое значение
  • (a1x1 + a0) = прогнозируемое значение

Как правило, существует расхождение между фактическим значением и прогнозируемым значением. Это называется Остаточный. Если наблюдаемые точки на графике относятся к линии наилучшего соответствия, невязка высока, поэтому значение функции стоимости будет высоким, что указывает на высокую ошибку, и наоборот.

Градиентный спуск

Градиентный спуск используется для минимизации среднеквадратичной ошибки путем вычисления градиента. Градиент вычисляет наклон функции. Градиентный спуск обновляет веса (a0 и a1) за счет уменьшения функции стоимости. Это делается путем случайного выбора значений весов или коэффициентов, и эти случайные значения итеративно обновляются для достижения минимального значения, которое может быть выведено нашей функцией стоимости.

К сожалению, сообщение становится слишком длинным. В моей следующей статье я буду создавать модель линейной регрессии с использованием TensorFlow, которая может прогнозировать топливную экономичность автомобилей 80-х и 90-х годов.

Если вы дошли до этого места, благодарим вас за то, что прочитали, и, если вам понравилось читать этот пост, подумайте о том, чтобы написать аплодисменты и подписаться на них. Я каждый день публикую интересные статьи по интересным темам Python и пишу учебные пособия по Python для начинающих.

Наслаждайтесь неограниченным чтением на Medium, став участником Medium здесь. Я получу небольшую комиссию, если вы зарегистрируетесь по моей ссылке.

Больше контента на plainenglish.io