Простая линейная регрессия

Регрессия:

Это важный инструмент для построения моделей данных и их анализа, поскольку это одна из моделей прогнозирования, которая изучает взаимосвязь между целевой переменной и независимой переменной.

Типы регрессии зависят от:

1. Тип данных целевой переменной: числовой, категориальный, логический и т. д.

2. Количество независимых переменных: одна или несколько.

3. Форма линии регрессии: прямая или кривая.

Вопрос:

Специалист по данным работает в компании, и у него была задача предсказать количество подписчиков на следующий месяц, в случае активации кампании, исторические данные о том, сколько пользователей подписалось в предыдущие месяцы, в дополнение к имени используемой кампании.

Сможет ли этот специалист по данным выполнить свою задачу, используя регрессию?

Ответ: Да!

Первый и самый простой тип регрессии: простая линейная регрессия.

Когда его использовать:

1. Количество независимых переменных: только одна, так что это «просто».

2. Тип целевой переменной: непрерывная не категориальная, значит не логистическая.

3. Форма линии регрессии: прямая линия, затем линейная.

Реальные примеры можно решить с помощью простой линейной регрессии:

1. Прогнозирование заработной платы сотрудника, имея одну числовую информацию типа данных: стаж лет.

2. Прогнозирование полевого урожая, имея одну числовую информацию типа данных: количество капель дождя.

3. Прогнозирование стоимости чулочно-носочной фабрики, имея одну числовую информацию типа данных: количество изделий.

Образец данных, который мы можем использовать для прогнозирования одной из переменных простой линейной регрессии:

Нам нужно найти формулу прямой линии, которая будет пересекать наибольшее количество точек данных, общая формула для любой линии выглядит следующим образом:

Y=α +β* X

Y : Целевая переменная.
α : Наклон
β : точка пересечения

Склон:

Как рассчитать уклон:

Мы находим координаты двух точек данных, которые наша линия пересекает их, затем мы находим разницу между их точками оси Y и точками оси X.

Пример:

X(3,5)

Y(1,2)

Уклон = 5–2/3–1

= 3/2

Всякий раз, когда мы находим формулу, которая рисует прямую линию, которая пересекает наибольшее количество точек данных, с минимальной частотой ошибок, мы можем предсказать будущие точки.

Пример использования Python для прогнозирования значений данных с использованием модели простой линейной регрессии:

https://github.com/rowizu/MachineLearningExamples/blob/master/SimpleLinearRegressionExample.py