Я думал об этой концепции с тех пор, как начал разбираться с концепцией градиентного спуска и способом обновления весов. Итак, вот мое понимание и, надеюсь, это поможет вам ответить на сам вопрос.
Возьмем пример простой линейной регрессии,
Y = m. X + c
Для простоты мы не будем рассматривать перехват, а остановимся на весе. Итак, уравнение теперь выглядит следующим образом:
Y =m.X
При выполнении градиентного спуска выполняются три основных шага:
- Прямой проход: где вычисляется прогноз
- Обратный проход: где вычисляются градиенты
- Наконец, обновление весов (W_new = W_old - скорость обучения * градиент)
Ключевой целью здесь является минимизация потерь, которые в случае линейной регрессии представляют собой просто MSE (среднеквадратичную ошибку). На этапе обратного прохода мы вычисляем градиент, который является не чем иным, как производной потерь по весу, то есть dLoss / dw
А теперь давайте посмотрим на следующее изображение:
Из диаграммы совершенно очевидно, что глобальный минимум затрат - это точка, в которой потери минимальны, и мы должны ее достичь, что означает, что мы должны получить значение веса, при котором глобальные затраты минимальны. Теперь давайте рассмотрим уравнение обновления веса:
W_new = W_old - скорость обучения * (dLoss / dW_old) # скорость обучения 0,01
Теперь при начальном весе, градиент или уклон положительный, поэтому, если мы вычтем, наш новый вес будет меньше, чем начальный вес, что означает, что мы движемся к весу, где глобальная стоимость минимальна (внизу).
Но если начальный вес находится слева, тогда градиент будет отрицательным, поэтому при вычитании наш новый вес будет увеличиваться, что означает, что мы снова движемся к весу, при котором глобальные затраты минимальны.
Таким образом, градиент дает нам представление о направлении, а скорость обучения определяет шаги, означающие, насколько быстро или медленно мы можем добраться до точки глобального минимума.
Вывод: минимизация потерь и получение правильного веса - это цель, а градиент помогает нам двигаться в правильном направлении.
Надеюсь, это поможет !!
Использованная литература:
Https://medium.com/@faisalshahbaz/best-optimization-gradient-descent-algorithm-4ca5a3be3776