Регрессия:
Это важный инструмент для построения моделей данных и их анализа, поскольку это одна из моделей прогнозирования, которая изучает взаимосвязь между целевой переменной и независимой переменной.
Типы регрессии зависят от:
1. Тип данных целевой переменной: числовой, категориальный, логический и т. д.
2. Количество независимых переменных: одна или несколько.
3. Форма линии регрессии: прямая или кривая.
Вопрос:
Специалист по данным работает в компании, и у него была задача предсказать количество подписчиков на следующий месяц, в случае активации кампании, исторические данные о том, сколько пользователей подписалось в предыдущие месяцы, в дополнение к имени используемой кампании.
Сможет ли этот специалист по данным выполнить свою задачу, используя регрессию?
Ответ: Да!
Первый и самый простой тип регрессии: простая линейная регрессия.
Когда его использовать:
1. Количество независимых переменных: только одна, так что это «просто».
2. Тип целевой переменной: непрерывная не категориальная, значит не логистическая.
3. Форма линии регрессии: прямая линия, затем линейная.
Реальные примеры можно решить с помощью простой линейной регрессии:
1. Прогнозирование заработной платы сотрудника, имея одну числовую информацию типа данных: стаж лет.
2. Прогнозирование полевого урожая, имея одну числовую информацию типа данных: количество капель дождя.
3. Прогнозирование стоимости чулочно-носочной фабрики, имея одну числовую информацию типа данных: количество изделий.
Образец данных, который мы можем использовать для прогнозирования одной из переменных простой линейной регрессии:
Нам нужно найти формулу прямой линии, которая будет пересекать наибольшее количество точек данных, общая формула для любой линии выглядит следующим образом:
Y=α +β* X
Y : Целевая переменная.
α : Наклон
β : точка пересечения
Склон:
Как рассчитать уклон:
Мы находим координаты двух точек данных, которые наша линия пересекает их, затем мы находим разницу между их точками оси Y и точками оси X.
Пример:
X(3,5)
Y(1,2)
Уклон = 5–2/3–1
= 3/2
Всякий раз, когда мы находим формулу, которая рисует прямую линию, которая пересекает наибольшее количество точек данных, с минимальной частотой ошибок, мы можем предсказать будущие точки.
Пример использования Python для прогнозирования значений данных с использованием модели простой линейной регрессии:
https://github.com/rowizu/MachineLearningExamples/blob/master/SimpleLinearRegressionExample.py