Метод определения статистической взаимосвязи между двумя или более переменными, при котором изменение зависимой переменной связано с изменением одной или нескольких независимых переменных и зависит от него.
Регрессия — это, по сути, алгоритм непрерывного обучения с учителем, который является одним из популярных алгоритмов.
Непрерывные и дискретные данные:
Дискретные данные являются описательными (например, «быстро» или «медленно»), тогда как непрерывные — это числовые значения, вычисляемые на основе их связи с независимой переменной.
Пример линейной регрессии:
Возьмем следующий пример
Предположим, что значение Y зависит от X . Приведенный выше график примерно построен для приведенных выше данных.
Здесь красная линия, которая примерно касается всех точек, называется линией регрессии, и вы можете ясно видеть, что линия пересекается в точке «с» на оси Y (пересечение по оси Y).
И если «m» - это наклон линии, то уравнение линии задается следующим образом:
Y= mX+c
На основе этой формулы вы можете предсказать значение Y от X
И это основная идея использования регрессии в ML.
Из приведенного выше графика, поскольку связь между независимыми переменными (X) и зависимой переменной (Y) является линейной, регрессия известна как линейная регрессия.
Данные для обучения:
Мы применяем регрессию к нашим данным и определяем наклон и точку пересечения, и, используя линейную формулу, мы решаем Y для любого заданного X, или мы можем сказать, что наша машина предсказывает Y для любого заданного X.
Ошибки:
Ошибка относится к расстоянию между любой точкой и линией регрессии. Линии регрессии рисуются так, чтобы они проходили от среднего значения
I.e y’ = mx’ + c y’= 𝛴y / n
x’= 𝛴x/ n
n- количество наборов данных
Из-за этого несколько точек в данных в реальном времени могут не точно совпадать с линией, и эти различия являются ошибками.
Среднеквадратическая ошибка:
Это говорит вам, насколько близка ваша линия регрессии к набору точек, удаленных от линии. Он берет расстояние от точек до линии регрессии и возводит их в квадрат. Это расстояние является ошибкой. Возведение в квадрат выполняется для удаления всех отрицательных знаков, если таковые имеются. Это называется MSE, так как вы находите среднее значение набора ошибок.
Этапы расчета MSE:
- Найдите линию регрессии
- Подставьте свои значения X, а затем найдите новые предсказанные значения Y.
- Найдите разницу между прогнозируемым значением и фактическим значением.
- квадрат их
- Сложите все ошибки и найдите среднее значение.
MSE используется для поиска линии наилучшего соответствия. Чем меньше значение, тем лучше результат.
Уравнение:
Ошибка R-квадрата:
R-квадрат — это статистическая мера того, насколько данные близки к подобранной линии регрессии. Он также известен как коэффициент детерминации или коэффициент множественной детерминации для множественной регрессии.
Определение R-квадрата довольно простое. Это процент изменения переменной отклика, который объясняется линейной моделью. Или:
R-квадрат = объясненная вариация / общая вариация
R-квадрат всегда находится в диапазоне от 0 до 100%:
- 0% указывает на то, что модель не объясняет никакой изменчивости данных отклика вокруг своего среднего значения.
- 100% указывает, что модель объясняет всю изменчивость данных отклика вокруг своего среднего значения.
Уравнение гипотезы:
hθ(x)=θ0+θ1x
Функция стоимости:
Функция стоимости — это то, что вы хотите минимизировать. Например, ваша функция стоимости может быть суммой квадратов ошибок в вашем тренировочном наборе.
Градиентный спуск:
Этометод нахождения минимума функции нескольких переменных. Таким образом, вы можете использовать градиентный спуск, чтобы минимизировать функцию стоимости. Если ваша стоимость является функцией N переменных, то градиент — это вектор длины N, который определяет конкретное направление, в котором стоимость увеличивается очень быстро.
Чтобы получить отличное объяснение градиентного спуска, посетите первую неделю этого курса Эндрю Н.Г. на Coursera. Советую пройти этот курс :)
https://www.coursera.org/learn/machine-learning
редактировать: rasbt.github.io
Изображение выше является очень четким объяснением градиентного спуска.
является частной производной функции стоимости, которую нам нужно вычислить.
Кредиты: курс Эндрю Н.Г. по машинному обучению на Coursera.
Логистическая регрессия:
В статистике логистическая модель (или модель входа) — это статистическая модель, которая обычно применяется к бинарной зависимой переменной. В регрессионном анализе логистическая регрессия или логическая регрессия оценивает параметры логистической модели. Говоря более формально, логистическая модель — это модель, в которой логарифмические шансы вероятности события представляют собой линейную комбинацию независимых переменных или переменных-предикторов. Два возможных значения зависимой переменной часто обозначаются как «0» и «1», которые представляют такие результаты, как «сдал/не сдал», «победа/поражение», «жив/мертв» или «здоров/больной».
Он использует сигмовидную функцию логистической функции для прогнозирования результата.
Классификация с помощью логистической регрессии:
Это довольно простой и очень полезный алгоритм бинарной классификации (классификация «да/нет», «быстро/медленно», «живой/мертвый» и т. д.). Его также можно использовать для обработки нескольких классов. Такая классификация называется классификацией «один против всех». Один против всех — это, по сути, набор бинарных классификаторов, в которых находится вероятность. Наконец, в качестве окончательного результата выбирается вариант с наибольшей вероятностью.
Сигмовидная функция:
y(z)=11+e-z
- Если значение y(0)=0,5
- Если y(z)›=0,5, то z ›=0
- Если y(z)‹0,5, то z‹0
- Следовательно, 0,5 — это пороговое значение для бинарной классификации.
- Если y(z)› = 0,5, ответ равен 1 (положительный случай). В противном случае, если y(z)‹0,5, ответ равен 0 (отрицательный случай).
Граница принятия решения:
Он действует как разделение между двумя классами. Линия, определяемая разделением двух областей y(z)=0 и y(z)=1, есть не что иное, как граница решения. Если переменные признаков xi нелинейны, то граница решения также может быть нелинейной.
На приведенном выше рисунке красная линия выступает в качестве границы решения между двумя классами, то есть синими кружками и зелеными треугольниками.
Приведенный выше график представляет собой круговую границу решения, которая разделяет зеленые треугольники и синие кружки.
Классификация "Один против всех":
Мы видели случаи с 2 классами выше.
Теперь рассмотрим случай с 3 классами.
Если мы попробуем класс 1 против всех, мы получим бинарную классификацию, подобную приведенной ниже:
Если мы попробуем класс 2 против всех, мы получим бинарную классификацию, подобную приведенной ниже:
Если мы попробуем класс 3 против всех, мы получим бинарную классификацию, подобную приведенной ниже:
Таким образом, мы находим значение гипотезы во всех трех случаях и выбираем среди них наибольшее значение. Это окончательный ответ, который нам нужен. Поскольку есть 3 класса, это проблема 3 бинарной классификации.
То же самое можно распространить на N случаев. Это будет проблема N бинарной классификации
Другая регрессия:
Линейная и логистическая регрессия являются жесткими и плохо работают, когда набор данных имеет большое количество выбросов, и нам может потребоваться предварительная обработка данных, такая как выбор признаков или PCA, и доступны многие другие типы регрессии, такие как регрессия Лассо, эластичная сеть и т. д.
— Написано Самьюктхой Прабху и Адитьей Шеной.