Функции активации: другие ReLU — «Глубокое погружение»{Часть-1}

В нашей предыдущей статье, 'Функции активации: ReLU vs. Leaky ReLU,'мы рассмотрели, что была функция активации, что такое ReLU и как два его основных варианта реализации должны были повлиять на работу нейронных сетей. Теперь давайте рассмотрим ДВА других типа ReLU — параметрический ReLU и экспоненциальную линейную единицу. Эти реализации ReLU в основном не обсуждаются и не преподаются в классах, поэтому я надеюсь, что эта статья будет информативной и проницательной. Давайте погрузимся прямо в!

Параметрический ReLU:

Параметрический ReLU (PReLU) — это разновидность функции активации Rectified Linear Unit (ReLU), которая вводит обучаемые параметры для определения наклона отрицательных значений. В отличие от традиционного ReLU, где отрицательные значения устанавливаются равными нулю, PReLU позволяет регулировать наклон во время обучения.

Функция PReLU определяется следующим образом:

f(x) = max(ax, x)

где x — вход, f(x) — выход, а «a» — обучаемый параметр. Значение a определяет наклон для отрицательных входных данных. Во время обучения значение «а» обновляется посредством обратного распространения вместе с другими параметрами сети.

Основной мотивацией использования PReLU является предоставление нейронной сети большей гибкости при изучении сложных шаблонов. Позволяя отрицательным значениям иметь небольшой наклон, сеть может собирать информацию, которая может быть отброшена традиционным ReLU. Это может быть особенно полезно при работе с наборами данных, содержащими положительные и отрицательные значения, поскольку позволяет сети изучать различные шаблоны активации для положительных и отрицательных входных данных.

Во время прямого прохода PReLU ведет себя аналогично ReLU: положительные значения передаются без изменений, а отрицательные значения умножаются на обучаемый параметр «a». Выход определяется путем взятия поэлементного максимума между «ax» и «x».

Во время обратного прохода (обратного распространения) вычисляется градиент относительно «x» и «a». Затем градиенты используются для обновления значений a и других параметров сети с помощью алгоритма оптимизации, такого как градиентный спуск.

Позволяя изучать наклон, PReLU вводит в модель больше параметров, чем традиционный ReLU. Эта повышенная гибкость может улучшить производительность модели, особенно в сценариях, где ReLU может привести к мертвым нейронам или ограниченным возможностям представления.

Однако важно отметить, что PReLU требует дополнительных вычислительных затрат из-за дополнительного обучаемого параметра. Кроме того, введение большего количества параметров может увеличить риск переобучения, поэтому для смягчения этой проблемы следует применять соответствующие методы регуляризации.

Читая вышеизложенное, можно подумать: «Чем Parametric ReLU отличается от Leaky ReLU?» — Давайте разберемся с этим.

Основное различие между PReLU и Leaky ReLU заключается в способе определения наклона отрицательных значений:

Leaky ReLU. В Leaky ReLU отрицательным значениям присваивается небольшой фиксированный наклон, обычно в виде предопределенной константы (например, 0,01). Функция определяется следующим образом:

f(x) = max(ax, x)

Здесь x — вход, f(x) — выход, а a — небольшая константа, определяющая наклон для отрицательных значений. Значение a остается неизменным на протяжении всего обучения и вывода.

Параметрический ReLU (PReLU): в PReLU наклон для отрицательных значений изучается во время обучения, а не фиксируется. PReLU представляет обучаемый параметр, который динамически определяет наклон.

По сути, Leaky ReLU использует фиксированный предопределенный наклон для отрицательных значений, в то время как PReLU адаптивно изучает наклон во время обучения. Эта адаптивность PReLU позволяет нейронной сети изучать наиболее подходящий наклон для каждого нейрона, потенциально повышая способность модели фиксировать сложные закономерности.

И PReLU, и Leaky ReLU решают проблему «мертвых нейронов», допуская некоторый градиентный поток для отрицательных входных данных. Вводя ненулевые наклоны, эти варианты позволяют сети избегать плоского или нулевого градиента, который может вызвать проблему умирания ReLU. Выбор между PReLU и Leaky ReLU зависит от конкретной проблемы и производительности модели во время обучения и тестирования.

Экспоненциальная линейная единица:

Экспоненциальная линейная единица (ELU) — это функция активации, предназначенная для устранения некоторых ограничений выпрямленной линейной единицы (ReLU) и ее вариантов. ELU вводит плавную кривую как для положительных, так и для отрицательных входных данных, что позволяет улучшить градиентный поток и избежать некоторых проблем, связанных с ReLU.

Функция ELU определяется следующим образом:

f(x) = { x, если x › 0; a * (exp(x) — 1), если x ‹= 0 }

где x — вход, f(x) — выход, a — константа, управляющая точкой насыщения.

Функция ELU ведет себя аналогично ReLU для положительных входных данных, где она просто передает входное значение без изменений. Однако ELU вводит кривую, которая плавно приближается к отрицательной точке насыщения для отрицательных входных данных. Выбор константы «а» определяет значение, до которого функция насыщается для отрицательных входных данных.

Основные преимущества ELU перед ReLU и его вариантами заключаются в следующем:

Гладкость: ELU обеспечивает гладкую кривую как для положительных, так и для отрицательных входных данных, в отличие от ReLU, который имеет резкий порог на нуле. Эта плавность обеспечивает лучшую непрерывность функции и обеспечивает более стабильный поток градиента во время обратного распространения.
Избегайте мертвых нейронов: ELU помогает смягчить проблему «умирающих ReLU», когда определенные нейроны могут перестать реагировать. Предоставляя ненулевые выходные данные для отрицательных входных данных, ELU стимулирует поток градиентов и помогает предотвратить полную деактивацию нейронов.
Отрицательное насыщение. Отрицательная точка насыщения в ELU позволяет функции более эффективно обрабатывать сильно отрицательные входные данные. Это может помочь сети собирать информацию из отрицательных входных данных, потерянных с помощью ReLU или его вариантов.
Аппроксимация функции идентичности: ELU аппроксимирует функцию идентичности для положительных входных данных, что может быть полезно при работе с исчезающими градиентами во время глубокого обучения сети.

Несмотря на свои преимущества, ELU также имеет некоторые особенности. Экспоненциальная функция в формулировке ELU может привести к дополнительной вычислительной сложности по сравнению с более простыми функциями активации. Кроме того, следует тщательно выбирать точку насыщения, так как очень высокая точка насыщения может привести к исчезновению градиентов, а низкая точка насыщения может привести к тому, что функция станет похожей на ReLU.

В следующей статье будут обсуждаться другие функции активации.

Этот мини-сериал был для меня увлекательным процессом обучения, и я надеюсь, что вы все найдете его таким же.

До скорого! Прощай!!

СТАНЬТЕ ПИСАТЕЛЕМ на MLearning.ai //БЕСПЛАТНЫЕ инструменты ML// Clearview AI

Предложения по подаче заявок на Mlearning.ai
Как стать писателем на Mlearning.aimedium.com

Функции активации: другие ReLU — «Глубокое погружение»{Часть-1}

Параметрический ReLU:

Экспоненциальная линейная единица:

СТАНЬТЕ ПИСАТЕЛЕМ на MLearning.ai //БЕСПЛАТНЫЕ инструменты ML// Clearview AI

Вопросы по теме