Простая линейная регрессия для машинного обучения стала проще с помощью метода наименьших квадратов [OLS]

Всем привет!

Я очень рад написать еще одну статью спустя много времени после публикации моей предыдущей статьи.

Простая линейная регрессия [SLR] - это в основном эта формула:

который записывается как y равно b ноль плюс b один умноженный на x один. Я уверен, что вы видели эту формулу в своей старшей школе, которая была частью рисования линии или наклонной линии по оси x-y. Давайте сделаем шаг вперед и подробно разберемся, что означает каждая из этих переменных или коэффициентов.

Что означает y в уравнении?

Из приведенного выше уравнения y является зависимой переменной (DV). Это переменная, которая пытается что-то объяснить, например:

Гипотетически говоря, зарплата сотрудника зависит от стажа работы. В этом случае y, то есть заработная плата сотрудника, будет зависимой переменной, поскольку она зависит от многолетнего опыта.

или возьмем другой пример, где оценки, выставленные учеником, зависят от количества часов, потраченных на учебу, опять же, в этом случае y, то есть набранные оценки, будут зависимой переменной, поскольку она зависит от количество часов, потраченных на подготовку к экзамену.

Что означает xe (x1) в уравнении?

Из того же уравнения, упомянутого выше, x является независимой переменной (IV), здесь в случае простой линейной регрессии у нас есть только одна независимая переменная, то есть x1.

Это переменная, которая вызывает изменение зависимой переменной. В приведенном выше примере годы опыта и количество часов, потраченных на обучение, являются независимыми переменными.

Что означает b1 в уравнении?

Здесь b1 - коэффициент для независимой переменной, то есть x1. Эта переменная (b1) фактически определяет, как изменение единицы измерения x1 влияет на y. Думайте об этом как о множителе или соединителе, соединяющем x и y.

а затем, наконец, идет b0 - константа, которую я подробно объясню в следующем разделе этой статьи.

Понимание SLR на примере:

Базовый пример зависимости зарплаты от лет опыта, где опыт (годы опыта) находится на оси x, а зарплата - на оси y. Наша главная цель здесь - понять, как заработная плата зависит от многолетнего опыта. Здесь у нас есть данные о разных сотрудниках, которые работают в разных компаниях.

Вот как формула простой линейной регрессии может быть связана с приведенным выше примером:

Вышеупомянутая формула может быть прочитана как Заработная плата равна b ноль плюс b1 умноженный на опыт. По сути, это означает, что на приведенной выше диаграмме проводится линия, которая лучше всего соответствует данным. Я объясню наиболее подходящую линию по мере продвижения, когда буду говорить об обычном методе наименьших квадратов [OLS], но пока, как вы можете видеть на приведенном ниже рисунке, линия, которая лучше всего соответствует данным.

Остановимся на коэффициентах b1 и константе b0.

Константа b0 - это точка или значение, в котором линия пересекает вертикальную ось, то есть ось y. Предположим, что значение b0 составляет 30 тысяч долларов, поэтому, когда опыт равен 0, вторая часть уравнения, то есть опыт b1 *, становится нулевым. Это означает, что зарплата = 30 тысяч долларов. По модели, когда новичок приходит в компанию, его зарплата будет 30 тысяч долларов.

Итак, что такое b1?

b1 - это наклон линии, больше денег, которые вы получите по мере увеличения опыта, будет значением b1. Как вы можете видеть на изображении выше, когда вы выполняете прогнозы в соответствии с черными пунктирными линиями, при увеличении опыта на один год зарплата увеличивается примерно на 10 тысяч долларов.

Если коэффициент b1 меньше, то наклон будет меньше, и даже прирост зарплаты в год будет меньше, если наклон больше, то опыт приведет к большему увеличению зарплаты и да, именно так работает простая линейная регрессия.

Как найти НАИЛУЧШУЮ ЛИНИЮ ДЛЯ простой линейной регрессии [SLR]?

Ответ дает метод наименьших квадратов [OLS]

Теперь давайте попробуем понять, как найти лучшую линию, или как SLR находит эту линию для нас.

Показанный выше график - это тот же график, который я объяснил ранее. У нас есть красные точки, которые изображают фактическое наблюдение, у нас также есть прямая линия, которая лучше всего соответствует данным. Чтобы понять, как работает метод OLS, внесем некоторые изменения в график:

Мы рисуем прямые линии, перпендикулярные наблюдениям до наиболее подходящей линии, а затем выбираем одно наблюдение, как показано ниже:

Теперь вы можете видеть на картинке выше, что красная точка - это зарплата человека за определенный год опыта. Предположим, за 5 лет опыта заработная плата составляет 50 тысяч долларов. Модельная линия, синяя линия, на самом деле говорит нам, что на самом деле этот человек должен получать с точки зрения заработной платы на основе этих данных в обобщенном виде. Допустим, он должен заработать 40 тысяч долларов за 5 лет опыта, что обозначено зеленой точкой на строке.

Затем давайте назовем красную точку как yi, что является фактическим наблюдением, а зеленая точка называется yi ^ (также называемая yi hat), которая представляет собой наблюдение / значение, которое модель пытается предсказать, а синяя пунктирная линия - это разница между тем, что сотрудник фактически зарабатывает и то, что он / она должен зарабатывать в соответствии с моделью. В общем, синяя пунктирная линия - это разница между наблюдаемым и смоделированным.

Чтобы получить эту наиболее подходящую линию, мы берем сумму (yi-yi ^) ², берем значение каждой из этих пунктирных синих линий, возводим их в квадрат и затем вычисляем сумму этих квадратов, как только мы суммируя эти квадраты, мы находим их минимум.

Итак, что делает SLR, так это то, что она рисует много-много этих линий примерно так:

а затем находит строку, которая имеет минимальную сумму квадратов (yi-yi ^), и эта линия является наиболее подходящей линией, и метод, используемый для определения этой строки, называется методом наименьших квадратов [OLS].

Надеюсь, эта статья оказалась для вас полезной.

Большое спасибо!

Не стесняйтесь связываться со мной через LinkedIn, Instagram или Facebook.

Я вернусь с еще одной захватывающей статьей! А пока оставайтесь в безопасности.

Ваше здоровье!

Арнольд Сачит

Простая линейная регрессия для машинного обучения стала проще с помощью метода наименьших квадратов [OLS]

Из приведенного выше уравнения y является зависимой переменной (DV). Это переменная, которая пытается что-то объяснить, например:

Понимание SLR на примере:

Как найти НАИЛУЧШУЮ ЛИНИЮ ДЛЯ простой линейной регрессии [SLR]?

Вопросы по теме