почему 4 (нм + п ^ 2 + п)?

Архитектура ячейки LSTM

Понимание количества обучаемых параметров после любого слоя очень важно. Но в случае с LSTM это довольно сложно. Расшифруем его пошагово.

Вход в LSTM и его размеры:

Во время прямого распространения Lstm разделяет параметры веса, поскольку он использует одинаковые веса для всех отметок времени. LSTM имеет четыре логических элемента в ячейке, тогда будет четыре соответствующих весовых матрицы.

Скажем, m = входной размер (если у нас есть предложение, состоящее из 4 слов, каждое из которых закодировано с помощью W2V, или перчатка до m dim, здесь seq length = 4 и dim = m)

и n = предыдущее состояние, скрытое измерение (или) Количество активаций в каждом гейте

понимать численно с одним порогом:

скажем, m = 100 (входной размер)

n=32

Входными данными для всех ворот является комбинация m + n = 132.

Тогда каждый наш вентиль представляет собой простой MLP с входным вектором 132 измерений с 32 блоками активации (сигмоид в случае забвения, вход 1 и выход и tanh для входа 2)

Тогда количество обучаемых параметров здесь (132 * 32 + 32). Здесь мы добавляем 32, потому что для каждой активации есть параметр смещения.

(132*32 +32)=((m+n)n+n)=(m*n+n²+n)

для одного гейта мы получили (m * n + n² + n) параметров. Поскольку LSTM имеет 4 шлюза, то общие обучаемые параметры в lstm станут

4(m*n+n²+n)

После применения простого mlp к каждому вентилю с 32 активациями в результате получается 32 тусклых вектора, затем он подвергается поэлементным преобразованиям, которые не изменяют эти 32 тусклых изображения, поэтому мы можем интерпретировать n в приведенном выше уравнении также как скрытое измерение в предыдущем состоянии.

Оформить заказ Другие работы







Ссылка:



www. applicationaicourse.com

Https://www.jeremyjordan.me/intro-to-neural-networks/