Регрессионный анализ — важный метод в мире статистики и анализа данных, который помогает нам понять взаимосвязь между переменными и делать прогнозы. В этой статье цель состоит в том, чтобы предоставить всестороннее объяснение фундаментальных математических принципов, используемых при построении базовой линейной модели с нуля.

Какова цель линейной регрессии?

Линейная регрессия направлена ​​на выявление взаимосвязи между зависимой переменной и независимыми переменными. Его основная цель — найти наиболее подходящую линию, сводя к минимуму ошибку между наблюдаемыми и прогнозируемыми значениями. Цель состоит в том, чтобы свести к минимуму разницу или расстояние между точками данных и линией, известную как «ошибка» или «остаток», обеспечивая точные прогнозы и репрезентативную модель взаимосвязи переменных.

Наклон (m) и точка пересечения (b) в линейной регрессии представляют собой параметры, которые определяют характеристики наиболее подходящей линии. Наклон определяет скорость изменения зависимой переменной по отношению к независимой переменной, а точка пересечения представляет значение зависимой переменной, когда независимая переменная равна нулю. Эти параметры имеют решающее значение для определения взаимосвязи между переменными и построения модели линейной регрессии.

Где m и b математически представлены как

где xi и yi — значения независимой и зависимой переменных

среднее значение x и y

На приведенной выше диаграмме видно, что те, что отмечены фиолетовым цветом, являются фактическими значениями, а красная линия является наиболее подходящей линией, а разница между этими двумя значениями представлена ​​​​как d1, d2, d3 и так далее.

Ошибка представляет собой не что иное, как сумму различий между фактическими и прогнозируемыми значениями, которая представлена ​​ниже.

Возведение в квадрат ошибок в линейной регрессии используется для количественной оценки общего несоответствия между прогнозируемыми и наблюдаемыми значениями, выделения более крупных ошибок, обработки положительных и отрицательных ошибок, различения моделей и подключения к оценке максимального правдоподобия.

мы вычисляем ошибку (d), вычитая предсказанные значения из фактических значений и заменяя их теми же.

Подставив оценочное значение (ŷ) в уравнение наилучшей линии (y = mx + b).

Наша цель — определить значения наклона (m) и точки пересечения (b), которые минимизируют ошибку, что приводит к созданию наиболее подходящей линии в линейной регрессии. Процесс включает в себя поиск оптимальных параметров, которые дают наименьшее общее расхождение между прогнозируемыми значениями и фактическими наблюдаемыми значениями.

Получение МНК Оценка наклона и точки пересечения

Расчетный наклон получается путем взятия суммы произведений отклонений X от его среднего значения и отклонений Y от его среднего значения для каждого наблюдения в выборке. Эта сумма затем делится на сумму квадратов отклонений X от его среднего значения по всем наблюдениям.

Для оценки перехвата можно использовать простую формулу. После получения значения наклона (m) с использованием предыдущей формулы оценка точки пересечения (b) получается путем вычитания m, умноженного на выборочное среднее значение X (x-столбец), из выборочного среднего значения Y. Этот расчет дает нам с расчетным значением для термина перехвата.

Теперь давайте начнем процесс вывода, чтобы понять, как мы пришли к значениям m (наклон) и b (отрезок) в предыдущем объяснении.

Давайте начнем с понимания ошибки прогноза или ошибки в линейной регрессии и того, как мы можем выразить ее математически. Ошибка прогноза — это разница между фактическим значением (yi) и прогнозируемым значением (yî), полученным с использованием регрессионной модели. Математически это можно выразить как

Если мы подставим уравнение ŷ = mx + b в формулу для ошибки предсказания, мы получим следующее выражение.

Цель состоит в том, чтобы свести к минимуму ошибку предсказания, выбрав оптимальные значения точки пересечения (b) и наклона (m).

При поиске минимума функции мы обычно принимаем параболическую форму, подобную той, что изображена ниже. Наша цель — достичь дна этого. В нижней точке производная функции равна нулю. Однако стоит отметить, что в некоторых случаях нижняя точка может быть и максимальной. Тем не менее, в контексте линейной регрессии мы сосредоточимся на поиске минимальной точки, которая представляет оптимальные значения для точки пересечения и наклона, которые минимизируют ошибки прогнозирования.

Чтобы математически вывести оптимальные значения точки пересечения (b) и наклона (m), мы берем первые производные целевой функции по каждому коэффициенту. Приравняв эти производные к нулю, мы можем найти критические точки, в которых ошибка предсказания минимальна.

поэтому давайте применим производную по b

Для вычисления производных мы используем два хорошо известных правила: степенное правило и цепное правило. С помощью правила степени мы уменьшаем показатель степени (в данном случае 2) и умножаем его на выражение. Применяя цепное правило, мы остаемся с (-1), а все остальные члены получают нуль, поэтому формула теперь будет

Умножая коэффициент (-1) на 2, получаем -2, которые можно вынести из суммирования. Это упрощение приводит к показанному выражению, которое представляет собой условие первого порядка для члена пересечения (b), когда мы устанавливаем его равным нулю. Это условие выполняется в точке минимума оптимизации, что указывает на оптимальное значение b в линейной регрессии.

Далее находим производную выражения по наклону (м)

Применяя к формуле степенное правило и цепное правило, после упрощения получаем (-xi — второй член), а остальные члены становятся равными нулю.

После применения степенного правила и цепного правила у нас остается выражение. Чтобы минимизировать сумму квадратов, приравняем это выражение к нулю, так как оно должно быть верным.

Здесь у нас есть два уравнения и два неизвестных m и b, и мы собираемся решить их, чтобы найти наши оценки.

Решение уравнения для b

Разделите на -2 с обеих сторон.

проводим суммирование и получаем эти члены.

Обратите внимание, что в отношении суммирования b и m являются константами в статистическом смысле, поэтому они могут выходить за рамки суммирования, сумма b от 1 до n равна n, умноженной на b(nb), а m выходит за пределы суммирования в своем члене.

Разделите обе части на n

Сумма Y по n равна, а сумма X по n равна, и мы получаем

Теперь нам нужно найти m. Вот частная производная по m.

Обратите внимание, что мы уже нашли b и получили выражение в терминах m, поэтому мы можем заменить его на b в приведенной выше формуле.

Здесь мы нашли выражение второй неизвестной m

Но я уверен, что вы можете быть сбиты с толку, как я пришел к окончательному выражению. Чтобы пояснить вывод, я шаг за шагом упростил выражение и представил промежуточные шаги в уравнениях 1 и 2. Эти уравнения помогут объяснить процесс, ведущий к окончательному выводу.

Примечание

Уравнение 1 –

В выражении ∑(xi — x ̅)(yi — y ̅) — x ̅∑(yi — y ̅) второй член становится равным нулю из-за свойства выборочного среднего. Давайте разберем это:

Член (yi - y ̅) представляет собой отклонение каждого yi от среднего значения y ̅. Когда мы суммируем эти отклонения для всех значений yi, ∑(yi — y ̅), результирующая сумма будет равна нулю. Это связано с тем, что отклонения выше среднего компенсируют отклонения ниже среднего, что приводит к чистой сумме, равной нулю.

Умножение этой суммы (∑(yi — y ̅)) на x ̅ также дает нуль, поскольку любое значение, умноженное на ноль, даст ноль. Следовательно, второй член в выражении становится равным нулю.

Код линейной регрессии Python с нуля.

Престижность за ваше достижение в овладении искусством получения наклона и точки пересечения линейной регрессии!

Код можно найти здесь: https://github.com/taherafirdose/100-days-of-Machine-Learning/blob/master/Simple%20Linear%20Regression/LinearRegression%20from%20Scratch.ipynb