Функция активации

Функция активации в глубоком обучении помогает определить выход нейронной сети. Также помогает нормализовать выходной сигнал каждого нейрона.

Нейронные сети используют нелинейные функции активации, которые могут помочь сети изучать сложные данные, вычислять и изучать практически любую функцию, представляющую вопрос, и обеспечивать точные прогнозы.

Здесь я собираюсь обсудить различные типы функций активации.

Сигмовидная
Тань
ReLU
LeakyReLU
ELU
PReLU
Свист
Использовать полностью
Softplus

Теперь я собираюсь подробно обсудить их все.

сигмовидная:

Сигмовидная функция - наиболее часто используемая функция активации в начале глубокого обучения.

В сигмовидной функции выходной сигнал находится в диапазоне от 0 до 1.

Производные сигмовидной функции находятся в диапазоне от 0 до 0,25.

Преимущества сигмовидной функции:

Выход этой функции находится в диапазоне от 0 до 1.
Эта функция помогает нормализовать выходной сигнал каждого нейрона.
Эта функция дает четкий прогноз между, например, близким к 0 или 1.

Недостатки сигмовидной функции:

Склонен к проблеме исчезающего градиента.
Вывод функции не ориентирован на ноль.
Это дорого с точки зрения вычислений. Из-за экспоненты и мощности.

2. Тань:

Tanh - функция гиперболического тангенса. Кривые функции tanh и функции sigmod относительно похожи.

В функции tanh вывод находится в диапазоне от -1 до 1.

Производные функции tanh находятся в диапазоне от 0 до 1.

Преимущества функции tanh:

Выходные данные этой функции находятся в диапазоне от -1 до 1.
Выход функции лучше, чем сигмовидный.

Недостатки функции tanh:

Склонен к проблеме исчезающего градиента.

3. ReLU:

Функция ReLU (Rectified Linear Unit) - это функция активации, которая в настоящее время более популярна. По сравнению с функцией sigmod и tanh она имеет следующие преимущества:

Преимущества функции ReLU:

1) Преодолеть проблему исчезающего градиента.

2) Эта функция эффективна с точки зрения вычислений.

3) Он не активирует все нейроны одновременно.

Недостатки функции ReLU:

Функция не ориентирована на ноль.
Градиент отрицательного входа мертв.

4. Утечка ReLU:

Чтобы решить проблему мертвого ReLU, люди предложили установить первую половину ReLU 0,01x вместо 0.

Преимущества функции Leaky ReLU:

1) Градиент для отрицательного входа не исчезнет по сравнению с ReLU.

Недостатки функции Leaky ReLU:

Это не согласуется с отрицательным мнением.

До конца не доказано, что Leaky ReLU всегда лучше, чем ReLU.

5. Функция ELU (экспоненциальные линейные единицы):

ELU также предлагается для решения проблем ReLU. Очевидно, что ELU обладает всеми преимуществами ReLU, а также:

Преимущества функции ELU:

Нет проблем с Dead ReLU.

2. Среднее значение выхода близко к 0, с нулевым центром.

Недостатки функции ELU:

В случае отрицательных данных это дорогое удовольствие.

В настоящее время на практике нет убедительных доказательств того, что ELU всегда лучше, чем ReLU.

6. PReLU (Параметрическое ReLU):

PReLU также является улучшенной версией ReLU.

Преимущества функции PReLU:

В отрицательной области PReLU имеет небольшой наклон, что также позволяет избежать проблемы смерти ReLU.

2. По сравнению с ELU, PReLU является линейной операцией в отрицательной области.

Хотя наклон небольшой, он не стремится к 0, что является определенным преимуществом.

Смотрим на формулу PReLU. Параметр α обычно представляет собой число от 0 до 1 и обычно относительно невелик, например, несколько нулей.

если a = 0, f становится ReLU
если a = 0,01, f становится негерметичным ReLU
если a - обучаемый параметр, f становится PReLU

7. Swish:

Формула: f (x) = x * sigmoid (x).

Дизайн Swish был вдохновлен использованием сигмовидных функций для стробирования в LSTM и магистральных сетях. Мы используем то же значение для стробирования, чтобы упростить механизм стробирования, который называется ** самозатвором **.

Преимущество автостробирования заключается в том, что для него требуется только простой скалярный ввод, в то время как для обычного стробирования требуется несколько скалярных вводов. Эта функция позволяет функциям автоматической активации, таким как Swish, легко заменять функции активации, которые принимают один скаляр в качестве входных данных (например, ReLU), без изменения скрытой емкости или количества параметров.

1) Неограниченность (неограниченность) помогает предотвратить постепенное приближение градиента к нулю во время медленной тренировки, вызывающее насыщение. В то же время ограниченность имеет преимущества, поскольку ограниченные активные функции могут иметь сильную регуляризацию, и большие отрицательные входные данные будут разрешены.

2) В то же время гладкость также играет важную роль в оптимизации и обобщении.

8. Максимальный выход:

Функция активации Maxout определяется следующим образом:

Одним из относительно популярных вариантов является нейрон Maxout (недавно представленный Гудфеллоу и др.), Который обобщает ReLU и его версию с утечками. Обратите внимание, что как ReLU, так и Leaky ReLU являются частным случаем этой формы (например, для ReLU мы имеем w1, b1 = 0). Таким образом, нейрон Maxout обладает всеми преимуществами блока ReLU (линейный режим работы, отсутствие насыщения) и не имеет его недостатков.

Активация Maxout - это обобщение функций ReLU и утечки ReLU. Это обучаемая функция активации.

Maxout можно рассматривать как добавление уровня функции активации к сети глубокого обучения, которая содержит параметр k. По сравнению с ReLU, сигмоидом и т. Д. Этот слой отличается тем, что он добавляет k нейронов, а затем выводит наибольшее значение активации.

9. Softplus:

Функция softplus похожа на функцию ReLU, но относительно гладкая. Это одностороннее подавление, подобное ReLU. Имеет широкий диапазон допустимости (0, + inf).

Функция Softplus: f (x) = ln (1 + exp x)

Функция активации

Вопросы по теме