Введение

Многие модели глубокого обучения решают задачи с помощью метода градиентного спуска. Оптимизация градиентного спуска требует большого количества обучающих выборок для сходимости модели. Это лишает его формы для обучения по нескольку кадров.

Мы обучаем наши модели, чтобы научиться достигать поставленной цели в общих моделях глубокого обучения. Однако люди тренируются, чтобы научиться любой цели. Существуют различные методы оптимизации, в которых особое внимание уделяется механизмам обучения и обучения. В этой статье мы подробно рассмотрим метод градиентного спуска.

Описание

Архитектура нейронных сетей обычно включает множество параметров. Он оптимизирован с использованием алгоритма градиентного спуска. Чтобы добиться успеха, на многих примерах требуются различные итерационные шаги. Алгоритм градиентного спуска обеспечивает достойное представление в своих моделях. Градиентный спуск используется в машинном обучении для определения значений параметров и коэффициентов функции. Это снижает функцию затрат до максимально возможной степени.

Что такое градиент?

  • Градиент в машинном обучении - это производная функция. У него более одной входной переменной.
  • В математических терминах это известно как наклон функции.
  • Градиент просто измеряет изменение всех весов с учетом изменения ошибки.

Как работает градиентный спуск?

  • Мы должны рассмотреть некоторые концепции линейной регрессии, прежде чем узнаем, как работает градиентный спуск.
  • Мы можем вспомнить формулу наклона прямой y = mx + b.
  • Здесь m обозначает наклон, а b - точку пересечения по оси y.
  • Точно так же мы можем вспомнить построение диаграммы рассеяния в статистике и получить линию наилучшего соответствия.
  • Это потребовало вычисления ошибки между фактическим и прогнозируемым выходными данными (y-hat) с использованием формулы среднеквадратичной ошибки.
  • Алгоритм градиентного спуска действует так же, как и он создается для выпуклой функции, например, такой, как показано ниже:

  • Отправной точкой для нас является лишь произвольная точка оценки презентации.
  • Мы обнаружим производную или наклон от этой отправной точки.
  • Мы можем использовать касательную, чтобы отследить крутизну склона.
  • Наклон будет информировать об обновлениях таких параметров, как веса и смещение.
  • Наклон в начальной точке будет круче, чем при вводе новых параметров.
  • Крутизна должна медленно уменьшаться, пока не достигнет самой нижней точки кривой, считающейся точкой схождения.
  • Цель градиентного спуска - уменьшить функцию стоимости и погрешность между прогнозируемым и фактическим y, чтобы получить линию наилучшего соответствия в линейной регрессии.
  • Для этого необходимы две точки данных в качестве направления и скорости обучения.
  • Эти факторы фиксируют вычисления частных производных будущих итераций.
  • Это позволяет ему неуклонно достигать локального или глобального минимума, такого как точка схождения.

Скорость обучения

  • По скорости обучения мы определили, насколько велики шаги градиентного спуска в направлении локального минимума.
  • Он сообщает, насколько быстро или медленно мы будем двигаться к оптимальному весу.
  • Нам нужно установить скорость обучения на подходящее значение для градиентного спуска, чтобы достичь локального минимума.
  • Он не должен быть ни слишком низким, ни слишком высоким.
  • Это важно по той причине, что если шаги, которые он делает, слишком велики, он не может достичь локального минимума, поскольку он колеблется взад и вперед между выпуклой функцией градиентного спуска.
  • Градиентный спуск, наконец, достигнет локального минимума, но это может занять некоторое время, если мы установим скорость обучения на очень маленькое значение.

Функция стоимости или потерь

  • Он обрабатывает разницу или ошибку между фактическим y и прогнозируемым y в его существующей позиции.
  • Это повышает эффективность модели машинного обучения, обеспечивая обратную связь с моделью, с тем чтобы она могла регулировать параметры для уменьшения ошибки и обнаружения локального или глобального минимума.
  • Он непрерывно выполняет итерацию, перемешиваясь в направлении наискорейшего спуска, или отрицательный градиент до функции стоимости близок к нулю или равен нулю.
  • На этом этапе модель прервет обучение.
  • Более того, хотя термины функция стоимости и функция потерь являются хорошо продуманными синонимами, между ними есть небольшое изменение.
  • Важно отметить, что функция потерь указывает ошибку одного обучающего примера, хотя функция стоимости измеряет среднюю ошибку по всему обучающему набору.

Типы градиентного спуска

Существует три основных типа алгоритмов обучения градиентным спуском:

  • Пакетный градиентный спуск,
  • Стохастический градиентный спуск
  • Мини-пакетный градиентный спуск.

Пакетный градиентный спуск

  • Он суммирует ошибку для каждой точки в обучающей выборке.
  • Точно так же он обновляет модель после оценки всех обучающих экземпляров.
  • Этот процесс начался как тренировочная эпоха.
  • Для больших наборов обучающих данных может потребоваться много времени на обработку.
  • Поскольку для этого по-прежнему требуется сохранение всех данных в памяти, хотя такое пакетирование делает доступной эффективность вычислений.
  • Пакетный градиентный спуск тоже обычно дает устойчивый градиент ошибки и сходимость.
  • С другой стороны, иногда эта точка конвергенции не самая лучшая для нахождения локального минимума по сравнению с глобальным.

Стохастический градиентный спуск

  • Для каждого примера в наборе данных наступает эра обучения.
  • Он обновляет параметры каждого обучающего экземпляра по одному.
  • Между тем, нам нужно иметь только один обучающий пример, поскольку они неформальны для хранения в памяти.
  • Это может привести к гибели вычислительных ресурсов по сравнению с пакетным градиентным спуском.
  • Его общие обновления могут привести к появлению шумных градиентов.
  • Это также может быть полезно для обхода локального минимума и поиска глобального.

Мини-пакетный градиентный спуск

Для получения более подробной информации посетите: https://www.technologiesinindustry4.com/2021/10/gradient-descent-method-in-machine-learning.html

Больше контента на plainenglish.io