В этом посте я дам некоторое интуитивное представление о том, почему мы перемещаем наши веса в направлении, противоположном градиентам, для нахождения минимума функции с использованием градиентного спуска.

давайте рассмотрим функцию потерь L (θ), тогда правило обновления θ в градиентном спуске дается приведенным ниже уравнением

я расскажу о том, почему мы делаем минус в приведенном выше уравнении. Давайте рассмотрим изменение потерь Δθ, а скорость обучения равна α. поэтому наша окончательная потеря после итерации равна L(θ+α.Δθ). Из разложения ряда Тейлора мы можем записать L(θ+α.Δθ) следующим образом:

для малых α мы можем пренебречь всеми словами с α ^ {n}, где n ≥ 2, поэтому уравнение

В градиентном спуске мы уменьшаем потери на каждой итерации, поэтому текущие потери меньше, чем предыдущие потери, поэтому из приведенного выше уравнения

альфа положительна, поэтому

приведенное выше уравнение представляет собой скалярное произведение между ∇ L (θ) и Δθ. предположим угол между этими двумя как γ, тогда cos (γ) равен

предположим ||∇ L(θ)|| .||Δθ|| = п так

Диапазон функции cos равен [-1,1], поэтому

Мы находим изменение θ, т. е. Δθ, такое, что ∇ L(θ).Δθ ‹ 0 ⇒ p.cos(γ) ‹ 0 . он меньше нуля, когда γ в (90,270), а cos(γ) более отрицательна, если γ = 180 градусов (cos(180) = -1). поэтому мы движемся в противоположном направлении градиента, чтобы получить нынешнюю потерю меньше, чем предыдущую потерю.

Ссылки:

  1. CS7015: Глубокое обучение — 2018 г., ИИТ Мадрас