Понятное объяснение градиентного спуска

Алгоритм, который ищет минимальное или максимальное значение и обновляет значение до тех пор, пока оно не сойдется к минимальному или максимальному значению. Мы увидим, как он обновляет соответствующие вещи.

Итак, прежде чем перейти к градиентному спуску для регрессионной модели, ознакомьтесь с постом. Даже если вы знаете, как работает регрессионная модель, прочтите этот пост, он может помочь.

https://medium.com/@kkarthikeyanvk/guide-to-simply-explained-linear-974da3d3c4f

Нам нужно найти минимум функции стоимости.

Мы минимизируем функцию стоимости, используя градиентный спуск.

По математической формуле

Вышеупомянутое уравнение представляет собой уравнение градиентного спуска. Мы попробуем расшифровать уравнение. Итак, чтобы в конце нам было ясно, как работает градиентный спуск.

Мы начнем с первой производной функции стоимости.

Что делает первая производная?

Простой, он дает наклон функции в этой точке, если вы берете вывод в тета.

Мы получаем наклон тета в этой точке выпуклой функции. На самом деле значение наклона может быть высоким в этой точке.

Учитывается разное значение наклона под разным углом:

Помните: - ось x = точка пересечения линии (c)

ось Y = наименьший квадрат

На изображении выше мы видим, что темно-синяя линия имеет более высокий наклон, чем зеленая и фиолетовая. По мере того, как вы идете вниз по кривой, светло-голубая линия имеет нулевой наклон. Затем снова увеличивается в желтой линии. Следовательно, наклон помогает получить минимальное решение, если значение наклона равно нулю.

Как попасть в этот глобальный минимум?

Мы должны вычесть параметр перехвата (тета) с некоторым значением, пока он не приблизится к глобальному минимуму.

Чтобы зафиксировать значение, мы будем использовать наклон, чтобы попасть в глобальный минимум.

Z = альфа*наклон

Мы вычитаем Z из этой начальной теты. Это уменьшает значение тета и наклон. Процесс выполняется до тех пор, пока наклон не станет равным нулю. Так что он сходится к глобальному минимуму.

мы умножаем наклон на альфа-канал, известный как Скорость обучения. Таким образом, что он делает самый крутой шаг к глобальному минимуму.

А как насчет скорости обучения альфа-каналу?

Возьмем альфа = 0,001

Каждый раз, когда мы повторяем уравнение i, он принимает наименьший крутой шаг. Это может привести к конвергенции, но на это может уйти много времени.

Возьмем альфа = 10

Каждый раз, когда мы итерируем уравнение, он принимает самый большой крутой наклон. Это может привести к Дивергенции, т.е. пересечению глобального минимума.

Скорость обучения обычно поддерживается на уровне 0,01, а иногда и зависит от нее.

Поэтому мы вычитаем альфа*наклон из исходного тета-значения до тех пор, пока оно не сойдется к глобальному минимуму, где функция стоимости минимальна.

Градиентный спуск применяется параллельно как к наклону линии, так и к точке пересечения.

С точки зрения множественной линейной регрессии будет более одного наклона. Мы теперь не вписываемся в линию, мы вписываемся в плоскость.

Так работает градиентный спуск.

ВАШЕ ЗДОРОВЬЕ !!!