Я недавно читал статьи Wavenet и PixelCNN, и в обоих они упоминают, что использование стробированных функций активации работает лучше, чем ReLU. Но ни в том, ни в другом случае они не объясняют, почему это так.
Я спрашивал на других платформах (например, на r / machinelearning), но пока не получил никаких ответов. Может быть, они просто попробовали (случайно) эту замену, и она дала положительный результат?
Функция для справки: y = tanh (Wk, f ∗ x). σ (Wk, g ∗ x)
Поэлементное умножение сигмовидной и tanh свертки.