Функции активации в нейронных сетях

Функции активации используются в нейронных сетях для внесения нелинейности в сеть. Это важно, потому что большинство реальных данных нелинейны, и нейронная сеть, выполняющая только линейные операции, не сможет моделировать такие данные и учиться на них.

Кроме того, функции активации играют ключевую роль в обучении нейронных сетей. Они определяют выход каждого нейрона в сети и, следовательно, влияют на градиенты, которые распространяются обратно по сети во время обучения. Это может оказать существенное влияние на производительность сети, а выбор функции активации может повлиять на скорость и сходимость процесса обучения.

В целом, функции активации являются неотъемлемой частью нейронных сетей и используются для введения нелинейности и позволяют сети изучать сложные закономерности в данных.

Релу

Выпрямленная линейная единица (ReLU) — это тип функции активации, используемый во многих моделях глубокого обучения. Формула ReLU:

f(x) = max(0, x)

Другими словами, выходом функции является максимум 0 и входное значение x. Это означает, что если х отрицательно, выход будет равен 0, а если х положительный, выход будет значением х.

Вот несколько примеров того, как будет работать ReLU:

f(5) = макс(0, 5) = 5
f(0) = макс(0, 0) = 0
f (−2) = макс (0, −2) = 0

ReLU — простая и эффективная функция активации, но у нее есть некоторые недостатки. Например, если вход нейрона ReLU представляет собой большое отрицательное значение, нейрон выдаст 0 и не сможет «учиться» на этом входе. Это может привести к так называемой проблеме «умирающего ReLU».

Для решения этих проблем было предложено несколько вариантов ReLU. Некоторые примеры включают Leaky ReLU, PReLU и ELU. Эти варианты вводят небольшие ненулевые значения для отрицательных входных данных, что может помочь предотвратить проблему умирания ReLU.

Это особенно полезно в скрытых слоях нейронной сети, где оно может помочь улучшить способность сети изучать сложные закономерности в данных.

Одним из ключевых преимуществ ReLU является его вычислительная эффективность и простота вычислений. В отличие от других функций активации, таких как сигмоид и тангенс, которые могут потребовать дорогостоящих операций, таких как возведение в степень, ReLU включает только простые арифметические операции. Это делает его подходящим для использования в больших и сложных нейронных сетях.

Еще одно преимущество ReLU заключается в том, что было показано, что он улучшает сходимость нейронных сетей во время обучения. Это означает, что сеть способна находить хорошие решения поставленной задачи быстрее и с меньшим количеством обучающих примеров.

Сетевая конвергенция

В контексте обучения нейронной сети «конвергенция» относится к точке, в которой производительность сети на обучающих данных перестает улучшаться и достигает плато. Обычно это происходит, когда сеть научилась делать достаточно точные прогнозы на обучающих данных, и дальнейшее обучение не улучшит ее производительность.

Конвергенция — важная концепция обучения нейронной сети, поскольку она определяет, сколько времени займет процесс обучения и насколько хорошо сеть будет работать с новыми, невидимыми данными. Если сеть быстро сходится, ей потребуется меньше обучающих примеров, и она сможет хорошо обобщать новые данные. С другой стороны, если для сходимости сети требуется много времени, она может переподходить к обучающим данным и плохо работать с новыми данными.

В приведенном выше утверждении упоминание о том, что ReLU улучшает конвергенцию сети, означает, что использование ReLU в качестве функции активации в скрытых слоях нейронной сети может помочь сети быстрее находить хорошие решения поставленной задачи и с меньшим количеством обучающих примеров. Это может сделать процесс обучения более эффективным и повысить производительность сети на новых данных.

Проблема с Dying Relu и как ее исправить

Проблема «умирающего ReLU» — распространенная проблема, которая может возникнуть при использовании функции активации ReLU в нейронных сетях. Это происходит, когда на вход нейрона ReLU поступает большое отрицательное значение, в результате чего нейрон выводит 0 и становится «мертвым» или «бездействующим». Это может произойти, если веса сети не инициализированы должным образом или если во время обучения установлена слишком высокая скорость обучения.

Когда нейрон ReLU «умирает», он перестает реагировать на входные данные и не участвует в вычислении выходных данных сети. Это может негативно сказаться на производительности сети, поскольку снижает способность сети учиться на данных. В крайних случаях большое количество нейронов может погибнуть, эффективно уменьшив размер сети и ограничив ее способность решать поставленную задачу.

Есть несколько способов решить проблему умирания ReLU. Один из подходов заключается в тщательном выборе начальных весов сети и установке подходящего значения скорости обучения. Это может помочь предотвратить гибель нейронов ReLU в первую очередь. Другой подход заключается в использовании вариантов функции ReLU, таких как Leaky ReLU или ELU, которые допускают небольшой ненулевой градиент для отрицательных входных значений. Это может помочь предотвратить гибель нейронов и повысить производительность сети.

Дырявый Релу, PRелу, Элу

Leaky ReLU, PReLU и ELU — это варианты функции активации ReLU, которые были предложены для решения проблемы «умирающего ReLU». Эти функции вводят небольшие ненулевые значения для отрицательных входных данных, что может помочь предотвратить гибель нейронов ReLU и повысить производительность сети.

Вот формулы для Leaky ReLU, PReLU и ELU:

Утечка ReLU: f (x) = max (0,01x, x)
PRELU: f(x) = max(ax, x), где a — обучаемый параметр
ELU: f(x) = max(0, x) + min(0, α * (exp(x) − 1)), где α — гиперпараметр

Вот несколько примеров того, как эти функции будут работать:

Утечка ReLU: f (-2) = max (0,01 * -2, -2) = -0,02
PRELU: f(-2) = max(a * -2, -2), где a — обучаемый параметр
ELU: f(-2) = max(0,-2) + min(0, α * (exp(-2) − 1)), где α — гиперпараметр

Как видите, все эти функции допускают небольшой ненулевой градиент для отрицательных входных значений, что может помочь предотвратить проблему «умирающего ReLU». Кроме того, PReLU и ELU имеют дополнительное преимущество, заключающееся в том, что они могут определить наилучшее значение параметра a и гиперпараметра α соответственно, что может еще больше повысить производительность сети.

В целом Leaky ReLU, PReLU и ELU могут быть лучше, чем ReLU, в ситуациях, когда проблема «умирающего ReLU» вызывает беспокойство. Они допускают небольшой ненулевой градиент для отрицательных входных значений, что может помочь предотвратить гибель нейронов ReLU и повысить производительность сети.

Другие функции активации

В дополнение к ReLU и его вариациям в Deep Learning есть несколько других часто используемых функций активации. Вот несколько примеров вместе с их формулами:

Сигмовидная: f(x) = 1/(1 + exp(-x))
Tanh: f(x) = (exp(x) — exp(-x)) / (exp(x) + exp(-x))
Softmax: f (x_i) = exp (x_i) / сумма (exp (x_j))

Вот несколько примеров того, как эти функции активации будут работать:

Сигмовидная: f(1) = 1/(1 + exp(-1)) = 0,73
Tanh: f(1) = (exp(1) — exp(-1)) / (exp(1) + exp(-1)) = 0,76
Софтмакс: f([1, 2, 3]) = [0,09, 0,24, 0,66]

Sigmoid и tanh являются сигмовидными функциями, что означает, что они имеют характерную форму буквы «S» при построении графика. Они обычно используются в выходном слое сети классификации, где они могут сопоставлять выходные данные с вероятностями каждого класса.

Softmax — это обобщение сигмовидной функции для нескольких классов. Он обычно используется в выходном слое сети классификации, где он может сопоставлять выходные данные с вероятностями каждого класса.

В целом существует множество различных функций активации, которые можно использовать в глубоком обучении, и выбор того, какую из них использовать, может зависеть от конкретной проблемы и архитектуры сети. ReLU и его варианты часто являются хорошей отправной точкой, но в некоторых случаях другие функции активации могут быть более подходящими.

Вот таблица, в которой суммированы преимущества и недостатки некоторых часто используемых функций активации:

Важно отметить, что это лишь некоторые из многих доступных функций активации, и есть много других вариантов, которые следует учитывать. Выбор функции активации может зависеть от конкретной проблемы и архитектуры сети.

Другие функции активации включают в себя:

Свиш: f(x) = x * сигмоид(x)
Максаут: f(x) = max(x1, x2, …)
Софтплюс: f(x) = log(1 + exp(x))
ReLU6: f(x) = min(max(0, x), 6)
GELU: f(x) = x * φ(x), где φ — кумулятивная функция распределения стандартного нормального распределения.
Логистика: f(x) = 1/(1 + exp(-x))
Гиперболический тангенс: f(x) = (exp(x) — exp(-x)) / (exp(x) + exp(-x))
Мягкий знак: f(x) = x/(1 + abs(x))
SELU: f(x) = масштаб * x, если x ›= 0; шкала * альфа * (exp(x) — 1), если x ‹ 0
ReLU-1: f(x) = max(-1,x)
ReLU-S: f(x) = x, если x > 0, иначе x * 0,1
ReLU: f(x) = max(0,x)
Утечка ReLU: f (x) = max (0,01x, x)
PRELU: f(x) = max(ax, x), где a — обучаемый параметр
ELU: f(x) = max(0, x) + min(0, α * (exp(x) − 1)), где α — гиперпараметр
Сигмовидная: f(x) = 1/(1 + exp(-x))
Tanh: f(x) = (exp(x) — exp(-x)) / (exp(x) + exp(-x))
Softmax: f (x_i) = exp (x_i) / сумма (exp (x_j))
Свиш: f(x) = x * сигмоид(x)
GELU: f (x) = 0,5 * x * (1 + erf (x / sqrt (2)))
Миш: f(x) = x * tanh(softplus(x))
Абсолютное значение: f(x) = |x|
Косинус: f(x) = cos(x)
Гауссовский: f(x) = exp(-x²)
Линейный обратный квадратный корень: f (x) = x / sqrt (1 + x²)
Логит: f(x) = log(x / (1 — x))
Maxout: f(x) = max(w_1^Tx+b_1, w_2^Tx+b_2)
Кусочно-линейный: f (x) = max (0, min (1, x + 0,5)), где x — вход, а 0,5 — порог.
Масштабированная экспоненциальная линейная: f (x) = x * exp (1 + exp (x))
Sinc: f(x) = sin(x)/x
Синус: f(x) = sin(x)
В квадрате: f(x) = x²
Мягкий знак: f(x) = x/(1 + |x|)
Шаг: f(x) = 1, если x > 0, 0 в противном случае

Это лишь некоторые примеры многих доступных функций активации. Выбор того, какой из них использовать, может зависеть от конкретной проблемы и архитектуры сети. Некоторые функции активации могут больше подходить для определенных типов данных или сетевых архитектур, тогда как другие могут лучше подходить для других задач. Также можно комбинировать различные функции активации в одной сети или даже создавать собственные функции активации для определенных приложений.

В заключение, функции активации являются неотъемлемой частью нейронных сетей и используются для введения нелинейности и позволяют сети изучать сложные закономерности в данных. Функции активации определяют выход каждого нейрона в сети и играют ключевую роль в обучении сети. Они влияют на градиенты, которые распространяются обратно по сети во время обучения, что может существенно повлиять на производительность сети. Выбор функции активации также может влиять на сходимость и скорость процесса обучения. Поэтому функции активации являются важным фактором при проектировании и обучении нейронных сетей.