Понятное объяснение градиентного спуска
Алгоритм, который ищет минимальное или максимальное значение и обновляет значение до тех пор, пока оно не сойдется к минимальному или максимальному значению. Мы увидим, как он обновляет соответствующие вещи.
Итак, прежде чем перейти к градиентному спуску для регрессионной модели, ознакомьтесь с постом. Даже если вы знаете, как работает регрессионная модель, прочтите этот пост, он может помочь.
https://medium.com/@kkarthikeyanvk/guide-to-simply-explained-linear-974da3d3c4f
Нам нужно найти минимум функции стоимости.
Мы минимизируем функцию стоимости, используя градиентный спуск.
По математической формуле
Вышеупомянутое уравнение представляет собой уравнение градиентного спуска. Мы попробуем расшифровать уравнение. Итак, чтобы в конце нам было ясно, как работает градиентный спуск.
Мы начнем с первой производной функции стоимости.
Что делает первая производная?
Простой, он дает наклон функции в этой точке, если вы берете вывод в тета.
Мы получаем наклон тета в этой точке выпуклой функции. На самом деле значение наклона может быть высоким в этой точке.
Учитывается разное значение наклона под разным углом:
Помните: - ось x = точка пересечения линии (c)
ось Y = наименьший квадрат
На изображении выше мы видим, что темно-синяя линия имеет более высокий наклон, чем зеленая и фиолетовая. По мере того, как вы идете вниз по кривой, светло-голубая линия имеет нулевой наклон. Затем снова увеличивается в желтой линии. Следовательно, наклон помогает получить минимальное решение, если значение наклона равно нулю.
Как попасть в этот глобальный минимум?
Мы должны вычесть параметр перехвата (тета) с некоторым значением, пока он не приблизится к глобальному минимуму.
Чтобы зафиксировать значение, мы будем использовать наклон, чтобы попасть в глобальный минимум.
Z = альфа*наклон
Мы вычитаем Z из этой начальной теты. Это уменьшает значение тета и наклон. Процесс выполняется до тех пор, пока наклон не станет равным нулю. Так что он сходится к глобальному минимуму.
мы умножаем наклон на альфа-канал, известный как Скорость обучения. Таким образом, что он делает самый крутой шаг к глобальному минимуму.
А как насчет скорости обучения альфа-каналу?
Возьмем альфа = 0,001
Каждый раз, когда мы повторяем уравнение i, он принимает наименьший крутой шаг. Это может привести к конвергенции, но на это может уйти много времени.
Возьмем альфа = 10
Каждый раз, когда мы итерируем уравнение, он принимает самый большой крутой наклон. Это может привести к Дивергенции, т.е. пересечению глобального минимума.
Скорость обучения обычно поддерживается на уровне 0,01, а иногда и зависит от нее.
Поэтому мы вычитаем альфа*наклон из исходного тета-значения до тех пор, пока оно не сойдется к глобальному минимуму, где функция стоимости минимальна.
Градиентный спуск применяется параллельно как к наклону линии, так и к точке пересечения.
С точки зрения множественной линейной регрессии будет более одного наклона. Мы теперь не вписываемся в линию, мы вписываемся в плоскость.
Так работает градиентный спуск.
ВАШЕ ЗДОРОВЬЕ !!!