Как нейронные сети учатся?

Чтобы понять, как работают нейронные сети, давайте сначала разберемся, как работает человеческий мозг.

Человеческий мозг представляет собой сложную сеть нейронов. Нейроны являются передатчиками сигналов (передатчики нашего мозга и органов чувств). Нейрон в основном состоит из двух частей: Аксон и Дендрит .Axon отправляет сигналы другим нейронам, а Dendrite получает сигнал от других нейронов. Нейрон в качестве сигнальной единицы бесполезен, но если объединить их с другими нейронами и сделать их сетью, они могут быть полезны. Исходя из предыдущего опыта, наш мозг будет научитесь действовать в подобной ситуации.

Терминология

Персептрон: один нейрон
Входной слой: слой в перцептроне, содержащий данные входные данные.
Вес: значимость ввода. Каждый ввод во входном слое будет иметь значение значимости.
Функция активации: функция, которая активирует нейрон. Некоторые примеры: выпрямитель, порог, сигмовидная функция, функция гиперболического тангенса.

Функция затрат: мера ошибки в прогнозе. Функция затрат c определяется как c = Σ (y'-y) ² / 2 , где y '- прогнозируемое значение, а y - фактическое значение.

Обучение в перцептроне

Давайте рассмотрим перцептрон (однослойная нейронная сеть прямого распространения). Входные значения подаются на входной уровень. При использовании случайных весов функция активации активирует нейрон, и на выходе создается прогнозируемое значение (y Прогнозируемое значение сравнивается с фактическим значением (y). На основе функции затрат веса корректируются. Процесс продолжается до тех пор, пока не будут использованы все значения в наборе данных. Цель состоит в том, чтобы уменьшить значение функция стоимости.

Минимизация функции затрат

Грубая сила: найдите все веса и определите оптимальный вес. Это практически неприменимо, так что это не лучший способ.

Градиентный спуск: на основе наклона точки в функции стоимости по сравнению с прогнозируемым значением. Если наклон отрицательный, точка перемещается вперед по кривой, а если положительный, точка перемещается назад. процесс продолжается до тех пор, пока наклон не станет равным нулю. Лучше всего работает только для выпуклых кривых.

Стохастический градиентный спуск: он похож на градиентный спуск. Вместо пакетной обработки входных значений для каждого входного значения определяется функция стоимости. Он находит глобальный минимум любого изгиб.

Прямое распространение

Входные значения подаются на входной уровень. При случайных весах функция активации активирует нейрон, и прогнозируемое значение вырабатывается в качестве вывода (y '). Прогнозируемое значение сравнивается с фактическим значением (y). для входных значений.

Обратное распространение

Обратное распространение - более сложная вещь: оно включает в себя распространение от выходного слоя к входному через скрытые слои с одновременной корректировкой весов, назначаемых.

Вывод

после всего этого процесса получены оптимальные веса, которые и являются обучением нейронной сети.