Учитывая недавнюю тенденцию не останавливаться на анализе производительности, а скорее расширять его, чтобы понять непостижимую интерпретируемость и динамику моделей глубокого обучения, в статье говорится о динамике обучения рекуррентных нейронных сетей (RNN) с точки зрения динамических систем. Наблюдения, изложенные в работе, заключаются в следующем:

Обучение уменьшает масштабы активности скрытых единиц

RNN обучается с помощью набора данных эталонного сентиментального анализа, и на каждом этапе собираются скрытые единичные действия RNN. На каждом этапе применяется PCA (анализ основных компонентов) для проверки необходимых компонентов для фиксации активности. По мере продолжения обучения количество компонентов PCA, необходимых для объяснения дисперсии, уменьшалось. Это показывает, что модель обучения косвенно требует экономии, но также позволяет добиться обобщения.

Пространства состояний для разных классов физически разделены

Когда начинается обучение, векторы состояния для разных примеров классов лежат очень близко друг к другу, и по мере продолжения обучения они отклоняются дальше. Это показывает, что извлечение признаков для получения возможности различения также отражается в геометрии пространства состояний и ясно интерпретируется при визуализации.

Наличие фиксированных точек

Во время обучения вектор состояния RNN следует за набором фиксированных точек. С точки зрения динамической системы неподвижная точка действует как раковина, которая привлекает систему, чтобы она оставалась в этой конкретной точке. Чтобы вытолкнуть систему из точки, необходимо приложить достаточно большую силу, иначе система останется неизменной или отодвинется и снова быстро упадет. С точки зрения глубокого обучения сила объясняется яркостью обучающего примера. Когда выборка данных нейтральна или имеет меньшую значимость (слабое положительное или отрицательное настроение), модель в фиксированной точке не изменяется. Но с другой стороны, когда встречается сильный положительный или отрицательный отзыв (пример), модель выскакивает из фиксированной точки и устанавливается в другой фиксированной точке. Это также объясняет устойчивость модели глубокого обучения к шуму. И многообразие всех таких неподвижных точек одномерно. Это дает еще один супер-крутой вывод о том, что обучающая модель не только устанавливается в низкоразмерном пространстве состояний, но также образует одномерное множество фиксированных точек.

Анализ фиксированной точки

Чтобы найти приблизительные фиксированные точки численно, в документе определяется функция потерь q = 1 / N (абсолютная ошибка (h - F (h, 0)). Эта функция просто имеет критерий минимизации разница активности в скрытом состоянии с той, которая получается, когда в качестве входных данных используется ноль. Когда скрытая активность близка к активности F (h, 0), мы можем приблизительно определить, что точка фиксирована, и функция оптимизируется с помощью методы оптимизации. Это опять же согласуется с определением фиксированной точки, которая является невосприимчивой к нейтральному (нулю) и быстро привлекает систему. Кроме того, авторы проверили, является ли точка фиксированной, приведя небольшой положительный / отрицательный пример возмущения системы. и проверил скорость, с которой он снова падает.

Устойчивость неподвижной точки

Авторы также провели анализ устойчивости, чтобы проверить характер фиксированной точки. Вкратце, расширение Тейлора первого порядка используется для аппроксимации обновления скрытого состояния для получения якобиана. После разложения на собственные числа получаются левый и правый собственные векторы, чтобы проверить устойчивость неподвижной точки.

Эксперименты проводятся с различными типами, архитектурами и наборами данных RNN, чтобы доказать универсальность. Экономия и линейная аппроксимация динамики обучения RNN позволяют провести много параллельных аналогий. Одна интересная параллель с нейробиологией заключается в том, что динамика аттрактора, которая, как полагают, наблюдается в гиппокампе [Ref 1] (известно, что играет жизненно важную роль в памяти и обучении), предполагается, что она использует простые ячейки сетки низкой размерности для формирования сложных представлений высокой размерности [Ref 1 2].

Надеюсь, вам понравилось читать :)

использованная литература

  1. Том Дж. Вилльсм, Колин Левер, Франческа Какуччи, Нил Берджесс, Джон О’Киф (2005) Динамика аттракторов в гиппокампальной репрезентации местной окружающей среды. Science Vol. 308, Issue 5723, pp. 873–876
  2. Клукас М., Льюис М., Фите И. (2020) Эффективное и гибкое представление многомерных когнитивных переменных с помощью ячеек сетки. PLoS Comput Biol 16 (4): e1007796.