Глубокие нейронные сети - важный класс нейронных сетей, которые применялись во многих областях машинного обучения, таких как обработка естественного языка [WE: 2016], компьютерное зрение [KR: 2012] и распознавание речи [HI: 2012]. Обучение таких сетей часто успешно выполняется путем минимизации невыпуклой целевой функции большой размерности. В теоретическом смысле мы лишь прикоснулись к этой проблеме оптимизации, и еще предстоит доказать ряд важных вопросов, касающихся ее поведения.

Недавняя статья Du, Lee, Li, Wang и Zhai Gradient Descent находит глобальные минимумы глубинных нейронных сетей [DU: 2018] проливает свет на два необъяснимых поведения глубоких нейронных сетей:

  • вы можете добиться нулевых потерь при обучении для случайных инициализированных методов первого порядка, даже если метки произвольные, и
  • более глубокие сети труднее обучить.

В статье Дю и др. Рассматриваются три архитектуры глубоких нейронных сетей:

  • многослойные полносвязные нейронные сети,
  • глубокая остаточная сеть (ResNet) *, и
  • сверточный ResNet.

Они используют случайно инициализированный алгоритм градиентного спуска, чтобы найти глобальный минимизатор эмпирических потерь для обучения. Их статья посвящена доказательству того, насколько избыточная параметризация необходима для обеспечения глобальной конвергенции градиентного спуска. Это обеспечивает необходимое условие для нулевой потери обучения для трех указанных архитектур, а также понимание того, почему более глубокие сети труднее обучать.

Нулевые потери при обучении для случайно инициализированных методов первого порядка

Хорошо известно, что использование случайных инициализированных методов первого порядка, таких как градиентный спуск для глубокого обучения, может привести к нулевым потерям при обучении даже для произвольных меток [ZH: 2016]. Чрезмерная параметризация является общепризнанной причиной этого, поскольку, если нейронная сеть имеет достаточно большую емкость, нейронная сеть может соответствовать всем обучающим данным. На практике широко распространены архитектуры с избыточной параметризацией, такие как широкие остаточные сети, которые имеют в сто раз больше параметров, чем количество обучающих данных [ZA: 2016].

Теоремы 3.1, 4.1 и 5.1 [DU: 2018] предоставляют достаточные условия для гарантии того, что градиентный спуск обеспечивает нулевое время потерь на обучение для глубоко параметризованных нейронных сетей для каждой из трех архитектур. Эти теоремы утверждают, что если ширина достаточно велика и размер шага установлен соответствующим образом, то градиентный спуск сходится к глобальному минимуму с нулевыми потерями с линейной скоростью.

Du et al. требуются следующие условия:

  • матрица Грама последнего слоя строго положительно определена,
  • каждая субматрица два на два каждого уровня для многослойных полносвязных нейронных сетей и первого уровня для ResNet имеет нижнее ограниченное собственное значение, и
  • функция активации липшицева и гладкая.

Это относительно слабые предположения. Первое условие обеспечивает условие невырожденности матрицы. Второе условие - это предположение о стабильности, гарантирующее, что при большой ширине матрица Грама на этапе инициализации будет близка к матрице Грама населенности. Последнее условие выполняется для многих функций активации и допускает нелинейные функции, такие как soft-plus.

Более глубокие сети труднее обучить

Эвристически мы знаем, что более глубокие сети труднее обучить. Для решения этой проблемы были предложены различные методы. He et al. [HE: 2016] предложил архитектуру глубокой остаточной сети (ResNet). ResNet использует случайно инициализированный метод первого порядка для обучения нейронных сетей с на порядок большим количеством слоев. Du et al. обратите внимание, что «Теоретически Хардт и Ма [HA: 2016] показали, что остаточные связи в линейных сетях предотвращают исчезновение градиента в большой окрестности нуля, но для нейронных сетей с нелинейными активациями преимущества использования остаточных связей не совсем понятны. . » [DU: 2018]. Почему использование остаточных соединений в архитектуре глубокой остаточной сети (ResNet) обеспечивает лучшую конвергенцию с полностью соединенными прямыми сетями?

Ответ на этот вопрос выпадает из анализа Du et al. Границы, приведенные в теоремах 3.1, 4.1 и 5.1 [DU: 2018], зависят от количества нейронов на слой. Природа этой зависимости различна для разных архитектур; с сетями прямого распространения, экспоненциально масштабирующимися с глубиной, в то время как ResNet требует только полиномиального масштабирования. Для сетей с прямой связью «экспоненциальная зависимость является результатом коэффициента усиления многоуровневой полносвязной архитектуры нейронной сети» [DU: 2018]. Эти теоремы ясно демонстрируют преимущество использования остаточных связей и основную сложность многослойной полносвязной нейронной сети.

Резюме

Статья Дю и др. [DU: 2018] доказывает, что градиентный спуск в глубоко параметризованных сетях может привести к нулевым потерям при обучении при некоторых относительно слабых предположениях о нейронной сети. Они также объясняют, почему более глубокие сети сложнее обучать и почему ResNet лучше многослойной полносвязной нейронной сети с точки зрения сходимости потерь при обучении.

На практике вероятнее всего использовать стохастический градиентный спуск вместо градиентного спуска. Однако отметим, что Du et al. ожидаем, что их анализ может быть расширен до методов стохастических градиентов с аналогичной скоростью сходимости.

Их внимание сосредоточено на потере тренировок, и они не смотрят на проигрыш в тестах. Важно иметь возможность доказать, что градиентный спуск может также найти решения с низкими потерями при тестировании. К сожалению, существующие исследования в этой области ограничены, и это остается открытым вопросом.

Примечания

* Архитектура ResNet Ду и др. Модифицирована без потери общности, чтобы пропускать соединения на каждом уровне, в отличие от стандартной ResNet, которая пропускает соединения через каждые два уровня. Это упрощает анализ, а результаты, представленные в статье, можно обобщить для стандартных архитектур.

использованная литература

[ДУ: 2018] Ду Симон С., Ли, Джейсон Д., Ли Хаочуань, Ван Ливэй, Чжай Сию: Градиентный спуск находит глобальные минимумы глубоких нейронных сетей препринт arXiv arXiv: 1811.03804. , 2018.

[HA: 2016] Хардт Мориц, Ма Тенгью: Идентичность имеет значение в глубоком обучении. препринт arXiv arXiv: 1611.04231, 2016.

[HE: 2016] Хэ Кайминь, Чжан Сянъюй, Рен Шаоцин, Сунь Цзянь: Глубокое остаточное обучение для распознавания изображений. В Протоколах конференции IEEE по компьютерному зрению и распознаванию образов , страницы 770–778, 2016.

[HI: 2012] Хинтон, Джеффри, Дэн, Ли, Ю, Донг, Даль, Джордж Э, Мохамед, Абдель-Рахман, Джайтли, Навдип, Сеньор, Эндрю, Ванхаук, Винсент, Нгуен, Патрик, Сайнат, Тара Н. и др. др .: Глубокие нейронные сети для акустического моделирования в распознавании речи: общие взгляды четырех исследовательских групп. IEEE Signal Processing Magazine, 29 (6): 82–97, 2012.

[KR: 2012] Крижевский, Алекс, Суцкевер, Илья, и Хинтон, Джеффри Э.: Классификация Imagenet с глубокими сверточными нейронными сетями. In Advances in neural processing systems, pp. 1097–1105 , 2012.

[WU: 2016] Ву, Юнхуэй, Шустер, Майк, Чен, Чжифэн, Ле, Куок В., Норузи, Мохаммад, Машери, Вольфганг, Крикун, Максим, Цао, Юань, Гао, Цинь, Машери, Клаус, Клингнер, Джефф , Шах, Апурва, Джонсон, Мелвин, Лю, Сяобин, Кайзер, Лукаш, Гоус, Стефан, Като, Йошикиё, Кудо, Таку, Казава, Хидето, Стивенс, Кейт, Куриан, Джордж, Патил, Нишант, Ван, Вэй, Янг , Клифф, Смит, Джейсон, Риза, Джейсон, Рудник, Алекс, Виньялс, Ориол, Коррадо, Грег, Хьюз, Макдафф и Дин, Джеффри: Система нейронного машинного перевода Google: устранение разрыва между человеческими и машинными переводами. lation. CoRR, abs / 1609.08144, 2016

[ZA: 2016] Загоруйко Сергей, Комодакис Никос: Широкие остаточные сети. NIN, 8: 35–67, 2016.

[ZH: 2016] Чжан Чиюань, Бенджио Сами, Хардт Мориц, Рехт Бенджамин, Виньялс Ориол: Понимание глубокого обучения требует переосмысления обобщения. препринт arXiv arXiv: 1611.03530, 2016.