Зачем вычитать скорость обучения * градиент из старого веса, чтобы получить новый вес, а не прибавлять ?? !!!!

Я думал об этой концепции с тех пор, как начал разбираться с концепцией градиентного спуска и способом обновления весов. Итак, вот мое понимание и, надеюсь, это поможет вам ответить на сам вопрос.

Возьмем пример простой линейной регрессии,

Y = m. X + c

Для простоты мы не будем рассматривать перехват, а остановимся на весе. Итак, уравнение теперь выглядит следующим образом:

Y =m.X

При выполнении градиентного спуска выполняются три основных шага:

Прямой проход: где вычисляется прогноз
Обратный проход: где вычисляются градиенты
Наконец, обновление весов (W_new = W_old - скорость обучения * градиент)

Ключевой целью здесь является минимизация потерь, которые в случае линейной регрессии представляют собой просто MSE (среднеквадратичную ошибку). На этапе обратного прохода мы вычисляем градиент, который является не чем иным, как производной потерь по весу, то есть dLoss / dw

А теперь давайте посмотрим на следующее изображение:

Из диаграммы совершенно очевидно, что глобальный минимум затрат - это точка, в которой потери минимальны, и мы должны ее достичь, что означает, что мы должны получить значение веса, при котором глобальные затраты минимальны. Теперь давайте рассмотрим уравнение обновления веса:

W_new = W_old - скорость обучения * (dLoss / dW_old) # скорость обучения 0,01

Теперь при начальном весе, градиент или уклон положительный, поэтому, если мы вычтем, наш новый вес будет меньше, чем начальный вес, что означает, что мы движемся к весу, где глобальная стоимость минимальна (внизу).

Но если начальный вес находится слева, тогда градиент будет отрицательным, поэтому при вычитании наш новый вес будет увеличиваться, что означает, что мы снова движемся к весу, при котором глобальные затраты минимальны.

Таким образом, градиент дает нам представление о направлении, а скорость обучения определяет шаги, означающие, насколько быстро или медленно мы можем добраться до точки глобального минимума.

Вывод: минимизация потерь и получение правильного веса - это цель, а градиент помогает нам двигаться в правильном направлении.

Надеюсь, это поможет !!

Использованная литература:

Почему мы вычитаем наклон * a в градиентном спуске?
Хорошо, я понял. Но все же почему МИНУС? medium.com

Https://medium.com/@faisalshahbaz/best-optimization-gradient-descent-algorithm-4ca5a3be3776

Зачем вычитать скорость обучения * градиент из старого веса, чтобы получить новый вес, а не прибавлять ?? !!!!

Y = m. X + c

Y =m.X

Вопросы по теме