Что такое линейная регрессия?
Линейная регрессия - один из самых простых и популярных алгоритмов машинного обучения. Это статистический метод (в основном использующий статистику), используемый для прогнозного анализа. Линейная регрессия используется для прогнозирования непрерывных или числовых переменных, таких как возраст, цена продукта и т. Д. Модель линейной регрессии показывает линейную зависимость между зависимой переменной (y) и независимой переменной (x). Обратитесь к приведенному выше графику для справки.
Если вы занимаетесь машинным обучением, вам могут быть интересны сообщения, на которые я ссылаюсь ниже. В этих статьях я рассказываю о том, что такое машинное обучение, как попасть в машинное обучение и о различных типах алгоритмов машинного обучения:
Математически мы можем представить линейную регрессию в виде формулы ниже:
y= a0+a1x+ ε
Где:
- Y = зависимая переменная
- a0 = коэффициент линейной регрессии
- a1 = Перехват линии
- ε = Случайная ошибка
Типы линейной регрессии
Линейную регрессию можно разделить на две категории:
Простая линейная регрессия. Простая линейная регрессия - это когда одна независимая переменная используется для прогнозирования числового значения зависимой переменной.
Множественная линейная регрессия. Множественная линейная регрессия - это когда несколько независимых переменных используются для прогнозирования числового значения одной зависимой переменной.
Линия линейной регрессии
Направление вашей линии линейной регрессии определяет, будет ли корреляция между вашими независимыми и зависимыми переменными положительной или отрицательной.
Если линия линейной регрессии положительна (идет вверх слева направо), это показывает, что существует положительная корреляция между независимой и зависимой переменной (по мере увеличения независимой переменной увеличивается и зависимая переменная).
Если линия линейной регрессии отрицательная (идет вниз слева направо), это показывает, что существует отрицательная корреляция между независимой и зависимой переменной (по мере увеличения независимой переменной зависимая переменная уменьшается).
Основная цель линейной регрессии - найти линию наилучшего соответствия (эта линия гипотетически проходит через большинство точек данных на графике, что позволяет предсказать следующее значение нашей зависимой переменной). Ошибка между фактическим значением и значением, предсказанным нашей нарисованной линией наилучшего соответствия, должна быть сведена к минимуму, чтобы гарантировать точное предсказание нашего зависимого числового значения.
Поскольку разные значения наших коэффициентов, иначе известные как веса (в данном случае это будут a0 и a1), при построении графика мы получим разные линии регрессии (лучше всего - подходящие линии), нам нужно вычислить наилучшие значения a0 и a1, чтобы получить наиболее подходящую линию. Именно здесь мы реализуем то, что мы называем машинным обучением, функцию затрат.
Функция стоимости
Функция стоимости оптимизирует коэффициент регрессии (a0 и a1). Он также измеряет, насколько хорошо работает модель линейной регрессии. В линейной регрессии мы используем функцию стоимости среднеквадратичной ошибки (MSE). Эта функция является средним квадратом ошибки, возникшей между прогнозируемыми и фактическими значениями. Формула для функции среднеквадратичной ошибки:
Где:
- N = общее количество наблюдений
- y1 = Фактическое значение
- (a1x1 + a0) = прогнозируемое значение
Как правило, существует расхождение между фактическим значением и прогнозируемым значением. Это называется Остаточный. Если наблюдаемые точки на графике относятся к линии наилучшего соответствия, невязка высока, поэтому значение функции стоимости будет высоким, что указывает на высокую ошибку, и наоборот.
Градиентный спуск
Градиентный спуск используется для минимизации среднеквадратичной ошибки путем вычисления градиента. Градиент вычисляет наклон функции. Градиентный спуск обновляет веса (a0 и a1) за счет уменьшения функции стоимости. Это делается путем случайного выбора значений весов или коэффициентов, и эти случайные значения итеративно обновляются для достижения минимального значения, которое может быть выведено нашей функцией стоимости.
К сожалению, сообщение становится слишком длинным. В моей следующей статье я буду создавать модель линейной регрессии с использованием TensorFlow, которая может прогнозировать топливную экономичность автомобилей 80-х и 90-х годов.
Если вы дошли до этого места, благодарим вас за то, что прочитали, и, если вам понравилось читать этот пост, подумайте о том, чтобы написать аплодисменты и подписаться на них. Я каждый день публикую интересные статьи по интересным темам Python и пишу учебные пособия по Python для начинающих.
Наслаждайтесь неограниченным чтением на Medium, став участником Medium здесь. Я получу небольшую комиссию, если вы зарегистрируетесь по моей ссылке.
Больше контента на plainenglish.io