Публикации по теме 'weight-initialization'


Почему дырявый ReLU менее чувствителен к инициализации, чем функция активации ReLU?
Причина, по которой Leaky ReLU менее чувствительна к инициализации, чем функция активации ReLU, заключается в том, что Leaky ReLU вводит небольшой отрицательный наклон для отрицательных входных значений, в то время как ReLU устанавливает все отрицательные входные значения равными нулю. Это означает, что в случае ReLU, если веса сети инициализированы таким образом, что…

Инициализация Kaiming He
В этой статье были представлены как активация PReLU, так и инициализация Kaiming. Мы обсудим инициализацию Kaiming в этом посте. Модели Deep NN испытывают трудности с сходимостью, когда веса инициализируются с использованием нормального распределения с фиксированным стандартным отклонением . Это связано с тем, что не учитывается дисперсия весов, что приводит к очень большим или малым значениям активации, что приводит к проблеме взрыва или исчезновения градиента во время обратного..

Пакетная нормализация
Идея состоит в том, что вместо простой нормализации входных данных в сеть мы нормализуем входные данные по слоям сети. Это называется «пакетной» нормализацией, потому что во время обучения мы нормализуем входные данные каждого слоя, используя среднее значение и дисперсию значений в текущем мини-пакете (обычно нулевое среднее и единичное отклонение). Преимущества пакетной нормализации Пакетная нормализация оптимизирует обучение сети. Было показано, что он имеет несколько преимуществ:..