Линейная регрессия — популярный статистический метод моделирования связи между двумя переменными. Это простой, но эффективный инструмент, который позволяет аналитикам данных генерировать прогнозы и понимать силу и направление связи между переменными. В этой статье блога будут рассмотрены основы линейной регрессии, ее применения и этапы разработки модели линейной регрессии.

Что такое линейная регрессия?

Линейная регрессия — это статистический метод, который подбирает линейное уравнение к наблюдаемым данным для представления связи между зависимой переменной (обычно обозначаемой как «y») и одной или несколькими независимыми переменными (обычно обозначаемыми как «x»). Цель линейной регрессии — определить прямую линию, которая лучше всего соответствует точкам данных и сводит к минимуму невязки или расхождения между прогнозируемыми и наблюдаемыми значениями. Затем на основе значений независимой переменной эту линию можно использовать для создания прогнозов относительно зависимой переменной(-ок).
Линейная регрессия может быть простой или сложной. В простой линейной регрессии есть только одна независимая переменная, однако в множественной линейной регрессии есть две или более независимых переменных. Уравнение базовой линейной регрессии показано ниже.

y = mx + b

где y — зависимая переменная, x — независимая переменная, m — наклон линии, а b — точка пересечения y, которая представляет значение y, когда x равно 0.

Применения линейной регрессии

Линейная регрессия имеет широкий спектр применений в таких секторах, как бизнес, финансы, здравоохранение, социальные науки и многих других. Некоторые примеры распространенных приложений линейной регрессии:

Прогностический анализ. Линейную регрессию можно использовать для прогнозирования значений зависимых переменных на основе значений независимых переменных. Его можно, например, использовать для прогнозирования будущих продаж на основе исторических данных о продажах, для прогнозирования цен на жилье на основе таких критериев, как местоположение, размер и возраст собственности, или для прогнозирования цен на акции на основе различных финансовых показателей.

Анализ взаимосвязей. Линейную регрессию можно использовать для изучения силы и направления взаимосвязи переменных. Его можно использовать, например, для установления того, существует ли линейная зависимость между возрастом человека и его доходом или существует ли связь между количеством времени, затрачиваемого на учебу, и результатами экзаменов.

Оценка эффективности. Линейную регрессию можно использовать для оценки производительности продукта или процесса. Его можно, например, использовать для определения связи между количеством удобрений, вносимых в культуру, и урожайностью или взаимосвязью между количеством часов сна и когнитивными способностями.

Прогнозирование. На основе исторических данных можно использовать линейную регрессию для оценки будущих тенденций и закономерностей. Его можно, например, использовать для оценки спроса на продукт или услугу или для прогнозирования количества пациентов в больнице на основе исторических данных о пациентах.

Основные предположения

Есть четыре предположения, связанные с моделью линейной регрессии:

Линейность. Связь между X и средним значением Y является линейной. Гомоскедастичность: дисперсия остатка одинакова для любого значения X. Нормальность: для любого фиксированного значения X, Y нормально распределены. Независимость. Наблюдения не зависят друг от друга.

Глубокий алгоритм линейной регрессии

Давайте углубимся в алгоритмы, используемые для линейной регрессии. Начнем с создания линейной функции f𝑤,𝑏(𝑥(𝑖)) = 𝑤𝑥(𝑖)+𝑏, где wиbявляются параметрами веса и смещения соответственно. . 𝑥(𝑖) — 𝑖𝑡ℎ обучающий пример.

Иногда значение, предсказанное нашей моделью (f𝑤,𝑏(𝑥(𝑖))), отличается от исходного заданного значения y(i), называемого целевым обучающим примером. Разница между этими двумя называется ошибкой.

Переходим к функции стоимости (J), также называемой функцией стоимости ошибки в квадрате. Вместо того, чтобы использовать ошибки для каждой точки данных отдельно, мы используем эту функцию стоимости. Функция стоимости J для wb может быть переписана как 1 на 2m, умноженное на сумму от i равной 1 до m от f из 𝑥(𝑖) минус y(i), сумма в квадрате.

Поскольку функция стоимости является типом ошибки, наша цель — свести ее к минимуму. Если мы предположим, что оба параметра являются переменными, мы получим выпуклую функцию стоимости, также известную как трехмерная функция стоимости. Для упрощения здесь мы предполагаем, что b является постоянным.

Из приведенных выше графиков ясно видно, что J зависит от w и b. Мы должны взять такие значения w и b, чтобы J стало минимальным. Вы можете подумать, какие значения w и b следует взять из этих бесконечных возможностей, чтобы J сходилось к минимальному значению?

Давайте перейдем к градиентному спуску, чтобы ответить на этот вопрос. Градиентный спуск — это метод попытки минимизировать любую функцию, а не только функцию стоимости, для линейной регрессии. Поскольку эти производные равны нулю в точке минимума, мы будем писать производные от J по w, и b до тех пор, пока они не сойдутся в контексте линейной регресс.

Градиентный спуск избавляет от необходимости учитывать начальные значения w и b, поскольку в результате получается минимальное значение J. Здесь мы также столкнулись с новым термином альфа, который означает скорость обучения.

Масштабирование функций

При работе с моделями линейной регрессии мы всегда должны проверять, нормализованы ли наборы данных или нет.

Давайте возьмем пример для этого, где мы хотим оценить количество CO2, выбрасываемого автомобилем, на основе объема и веса автомобиля, также называемого множественной линейной регрессией.

Глядя на набор данных, мы видим, что значения объема варьируются от 0 до 2, а значения веса — от сотен до тысяч. При сравнении объема 1,0 с весом 790 мы сталкиваемся с различными препятствиями, но если мы масштабируем их оба до сопоставимых значений, мы можем легко сказать, насколько одно значение относительно другого. И это то, что мы называем масштабированием функций.

Существуют разные методы масштабирования функций; Вот некоторые из них: 1. Нормализация. Это метод масштабирования, который сдвигает и масштабирует числа так, что они в конечном итоге находятся в диапазоне от 0 до 1. Мин-макс масштабирование — другое его название.

Вот формула нормализации

Где Xmax и Xmin — максимальное и минимальное значения признака соответственно.

2. Стандартизация. Пристандартизации значения центрируются вокруг среднего значения и имеют единичное стандартное отклонение. В результате среднее значение атрибута становится равным нулю, а результирующее распределение имеет единичное стандартное отклонение. Вот формула нормализации

Где µ — среднее значение значений признаков, а σ — стандартное отклонение значений признаков.