Многомерные рекуррентные нейронные сети, я заинтересовался ими, как только услышал их название. Итак, сегодня я попытаюсь заняться сетевой структурой Spatial LSTM, представленной в этой статье. Генеративное моделирование изображений с использованием пространственных LSTM - Лукас Тайс. Также в сегодняшнем блоге мы будем выполнять прямую подачу на 2D LSTM.

ТАКЖЕ Я ПРИОБРЕЛА НОВЫЙ МАРКЕР - ОРАНЖЕВЫЙ И ЗЕЛЕНЫЙ XD

Преобразование из 1D LSTM в 2D LSTM

Итак, изображение выше показывает, как мы можем перенести идею 1D LSTM в 2D LSTM. Нанести их на изображения. Одна очень важная вещь, на которую следует обратить внимание на фотографии выше, - это состояние ячейки и скрытые состояния.

Желтая рамка → 1D LSTM
Зеленая рамка → Транспонированная 1D LSTM
(Представьте, что это один столбец в матрице)
Розовая рамка → 2D LSTM

Как видно выше, для 1D LSTM мы инициализируем C (0) и h (0) перед тем, как начать обучение сети. Существует несколько методов инициализации этих значений, например, в статье Показать, присутствовать и сообщить: создание заголовков нейронных изображений с визуальным вниманием »авторы инициализируют первые значения с помощью чего-то, что называется MLP - Могу только предположить, что это многослойные персептроны.

Но в 2D LSTM нам нужно инициализировать гораздо больше значений ячеек и скрытых состояний.

Как видно выше, нам нужно не только инициализировать с C (0,1) до C (0, j), но также с C (1,0) до C (i, 0). То же самое касается всех скрытых состояний. Теперь мы можем сделать кое-что интересное, поскольку мы знаем структуру 1D LSTM и 2D LSTM, давайте представим себе 3D LSTM.

Довольно красавица, не правда ли? : D
Опять же, оранжевые квадраты - это расположение первой ячейки и скрытых состояний. Приложения для этой сети привязаны не только к видеоданным, но и к многому другому. Теперь, когда мы знаем общую структуру, вернемся к статье Генеративное моделирование изображений с использованием пространственных LSTM.

Пространственная долговременная кратковременная память

Итак, как сказали авторы, оригинальный SLSTM был предложен двумя авторами, Грейвсом и Шмидхубером. Чтобы просмотреть статью этих двух авторов, нажмите Автономное распознавание рукописного ввода с помощью многомерных рекуррентных нейронных сетей ». В этой статье авторы очень хорошо наглядно демонстрируют, что такое 2D LSTM, и это показано ниже. Однако в документе, с которым я работаю, есть более ясное и чистое математическое уравнение, описывающее SLSTM. (Показано выше)

Образцы данных обучения

Таким образом, мы выполним прямой проход для ОЧЕНЬ простых обучающих данных, которые представляют собой изображение размером 2 * 2 (всего 4 пикселя), показанное в черном поле выше.

Сетевая архитектура

Теперь я знаю, что это выглядит плохо, но мне пришлось использовать всю белую доску, чтобы сделать эту диаграмму LOL, поэтому работайте со мной здесь. Начнем с самого начала.

Сначала каждый ящик представляет собой один ящик LSTM, архитектура является производным от известного Colah Blog.

Во-вторых, вот информация о временной отметке ниже.

Красный прямоугольник → прямая подача, когда отметка времени (1,1)
Зеленая рамка → прямая подача, когда отметка времени (2,1)
Оранжевая рамка → прямая подача, когда отметка времени (1,2)
Пурпурная рамка → Прямая передача, когда отметка времени (2,2)

В-третьих, каждая синяя звездочка представляет функцию стоимости, которую мы можем вычислить для каждой временной отметки.

Прямая лента

Опять же, я знаю, что это выглядит плохо, но с LSTM уравнения все время запутываются.

Следует отметить, что все переменные, записанные с помощью СИНИХ маркеров, уже являются инициализированными значениями. Так что не беспокойтесь о том, откуда они только что появились, они были инициализированы заранее.

Заключительные слова

Я не могу представить себе процесс обратного распространения в этой сети, будет НАСТОЛЬКО забавно получить их вручную. Надеюсь, однажды я это сделаю.

Если будут обнаружены какие-либо ошибки, напишите мне по адресу [email protected].

Тем временем подпишитесь на меня в моем твиттере здесь и посетите мой веб-сайт или мой канал Youtube для получения дополнительной информации. Я также сделал вывод обратного распространения по простой RNN здесь, если вам интересно.

Ссылки

  1. Тайс, Л., и Бетге, М. (2015). Генеративное моделирование изображений с использованием пространственных LSTM. В книге Достижения в системах обработки нейронной информации (стр. 1927–1935).
  2. CoRR, абс / 1502.03044,. Кельвин Сюй и (2015). Покажи, посети и расскажи: создание подписи к нейронным изображениям с помощью визуальных элементов.
  3. CoRR, абс / 0705.2011,. Алекс Грейвс и (2007). Многомерные рекуррентные нейронные сети.
  4. Понимание сетей LSTM. (нет данных). Получено 19 января 2018 г. с сайта http://colah.github.io/posts/2015-08-Understanding-LSTMs/.
  5. Грейвс, А., и Шмидхубер, Дж. (2009). Распознавание рукописного ввода в автономном режиме с помощью многомерных рекуррентных нейронных сетей. В книге Достижения в области нейронных систем обработки информации (стр. 545–552).