почему 4 (нм + п ^ 2 + п)?
Архитектура ячейки LSTM
Понимание количества обучаемых параметров после любого слоя очень важно. Но в случае с LSTM это довольно сложно. Расшифруем его пошагово.
Вход в LSTM и его размеры:
Во время прямого распространения Lstm разделяет параметры веса, поскольку он использует одинаковые веса для всех отметок времени. LSTM имеет четыре логических элемента в ячейке, тогда будет четыре соответствующих весовых матрицы.
Скажем, m = входной размер (если у нас есть предложение, состоящее из 4 слов, каждое из которых закодировано с помощью W2V, или перчатка до m dim, здесь seq length = 4 и dim = m)
и n = предыдущее состояние, скрытое измерение (или) Количество активаций в каждом гейте
понимать численно с одним порогом:
скажем, m = 100 (входной размер)
n=32
Входными данными для всех ворот является комбинация m + n = 132.
Тогда каждый наш вентиль представляет собой простой MLP с входным вектором 132 измерений с 32 блоками активации (сигмоид в случае забвения, вход 1 и выход и tanh для входа 2)
Тогда количество обучаемых параметров здесь (132 * 32 + 32). Здесь мы добавляем 32, потому что для каждой активации есть параметр смещения.
(132*32 +32)=((m+n)n+n)=(m*n+n²+n)
для одного гейта мы получили (m * n + n² + n) параметров. Поскольку LSTM имеет 4 шлюза, то общие обучаемые параметры в lstm станут
4(m*n+n²+n)
После применения простого mlp к каждому вентилю с 32 активациями в результате получается 32 тусклых вектора, затем он подвергается поэлементным преобразованиям, которые не изменяют эти 32 тусклых изображения, поэтому мы можем интерпретировать n в приведенном выше уравнении также как скрытое измерение в предыдущем состоянии.
Оформить заказ Другие работы
Ссылка:
www. applicationaicourse.com