Почему функция стробированной активации (используемая в Wavenet) работает лучше, чем ReLU?

Я недавно читал статьи Wavenet и PixelCNN, и в обоих они упоминают, что использование стробированных функций активации работает лучше, чем ReLU. Но ни в том, ни в другом случае они не объясняют, почему это так.

Я спрашивал на других платформах (например, на r / machinelearning), но пока не получил никаких ответов. Может быть, они просто попробовали (случайно) эту замену, и она дала положительный результат?

Функция для справки: y = tanh (Wk, f ∗ x). σ (Wk, g ∗ x)

Поэлементное умножение сигмовидной и tanh свертки.


person Ahmad Moussa    schedule 09.05.2019    source источник


Ответы (1)


Я покопался и поговорил еще с другом, который указал мне на статью Dauphin et. al. о языковом моделировании с помощью закрытых сверточных сетей. Он предлагает хорошее объяснение по этой теме в разделе 3 статьи:

LSTM обеспечивают долговременную память через отдельную ячейку, управляемую воротами ввода и забывания. Это позволяет информации беспрепятственно проходить через множество временных шагов. Без этих ворот информация могла бы легко исчезнуть из-за преобразований каждого временного шага.

Напротив, сверточные сети не страдают от такого же исчезающего градиента, и мы экспериментально обнаруживаем, что они не требуют вентилей забывания. Поэтому мы рассматриваем модели, обладающие только выходными вентилями, которые позволяют сети контролировать, какая информация должна распространяться через иерархию уровней.

Другими словами, это означает, что они приняли концепцию вентилей и применили их к последовательным сверточным слоям, чтобы контролировать, какой тип информации пропускается, и, очевидно, это работает лучше, чем использование ReLU.

edit: Но ПОЧЕМУ это работает лучше, я все еще не знаю, если бы кто-нибудь мог дать мне хотя бы отдаленно интуитивный ответ, я был бы благодарен, я немного огляделся, и, по-видимому, мы все еще базируемся наше суждение методом проб и ошибок.

person Ahmad Moussa    schedule 09.05.2019
comment
ты когда-нибудь узнал? - person kendfss; 03.06.2021