Почему функция стробированной активации (используемая в Wavenet) работает лучше, чем ReLU?

Я недавно читал статьи Wavenet и PixelCNN, и в обоих они упоминают, что использование стробированных функций активации работает лучше, чем ReLU. Но ни в том, ни в другом случае они не объясняют, почему это так.

Я спрашивал на других платформах (например, на r / machinelearning), но пока не получил никаких ответов. Может быть, они просто попробовали (случайно) эту замену, и она дала положительный результат?

Функция для справки: y = tanh (Wk, f ∗ x). σ (Wk, g ∗ x)

Поэлементное умножение сигмовидной и tanh свертки.

Ahmad Moussa 09.05.2019 источник

Ответы (1)

arrow_upward
7
arrow_downward

Я покопался и поговорил еще с другом, который указал мне на статью Dauphin et. al. о языковом моделировании с помощью закрытых сверточных сетей. Он предлагает хорошее объяснение по этой теме в разделе 3 статьи:

LSTM обеспечивают долговременную память через отдельную ячейку, управляемую воротами ввода и забывания. Это позволяет информации беспрепятственно проходить через множество временных шагов. Без этих ворот информация могла бы легко исчезнуть из-за преобразований каждого временного шага.

Напротив, сверточные сети не страдают от такого же исчезающего градиента, и мы экспериментально обнаруживаем, что они не требуют вентилей забывания. Поэтому мы рассматриваем модели, обладающие только выходными вентилями, которые позволяют сети контролировать, какая информация должна распространяться через иерархию уровней.

Другими словами, это означает, что они приняли концепцию вентилей и применили их к последовательным сверточным слоям, чтобы контролировать, какой тип информации пропускается, и, очевидно, это работает лучше, чем использование ReLU.

edit: Но ПОЧЕМУ это работает лучше, я все еще не знаю, если бы кто-нибудь мог дать мне хотя бы отдаленно интуитивный ответ, я был бы благодарен, я немного огляделся, и, по-видимому, мы все еще базируемся наше суждение методом проб и ошибок.

Ahmad Moussa 09.05.2019

comment

ты когда-нибудь узнал? - kendfss; 03.06.2021

Почему функция стробированной активации (используемая в Wavenet) работает лучше, чем ReLU?

Ответы (1)

Вопросы по теме