Неудачи глубокого обучения

Абстрактный

Сегодня глубокое обучение применяется во многих областях, таких как компьютерное зрение, обработка и генерация звука и естественного языка и т. Д. Хотя мы расширяем границы его производительности, люди должны знать, что глубокое обучение имеет свои ограничения. В 2015 году Ань Нгуен опубликовал статью в CVPR [1], в которой был определен предел компьютерного зрения, при котором вы можете обмануть глубокую нейронную сеть (DNN), изменив изображение таким образом, который незаметен для людей, но может привести к тому, что DNN изменится. обозначить изображение как нечто совершенно иное.

В этой статье авторы описали четыре семейства проблем, в которых часто используемые алгоритмы не работают или сталкиваются с серьезными трудностями.

Введение

В этой статье обсуждаются четыре семейства простых задач, для которых часто используемые методы не показывают ожидаемой производительности. В первом разделе будет обсуждаться информация о градиенте, которая несет незначительную информацию о целевой функции. Во втором разделе будут обсуждены два общих подхода к проблемам обучения и оптимизации. В третьей части авторы показывают, что даже когда две архитектуры обладают одинаковой выразительной способностью, может быть огромная разница в способности их оптимизировать. В последнем разделе авторы сосредотачиваются на простом случае, чтобы поставить под сомнение зависимость глубокого обучения от «ванильной» информации градиента для процесса оптимизации.

Эксперимент

Отказ из-за неинформативных градиентов

Этот эксперимент показывает, что если в градиенте мало информации, ее использование для обучения не приведет к успеху. Авторы начинают с простой задачи изучения случайных партий: сначала выбирают v * ∈ {0, 1} d, затем используется y чтобы указать, является ли количество единиц в определенном подмножестве координат x (обозначено v *) нечетным или четным. (конфигурация: потеря шарнира, один полностью связанный слой с активацией ReLU, полностью связанный выходной слой с линейной активацией и один блок).

Из рисунка 1 видно, что с увеличением размера d возрастает и сложность обучения. До точки около d = 30, где после разумного времени не наблюдается никаких улучшений за пределами случайной производительности.

Путем подробного анализа с использованием двух теорем авторы, наконец, указывают на то, что градиентные методы действительно не могут узнать случайные четности и линейно-периодические функции. Кроме того, эти результаты сохраняются независимо от того, какой класс предикторов мы используем, но заключаются в использовании метода на основе градиента для их обучения.

В заключение, путем прямого изучения дисперсии градиентов по отношению к целевой функции авторы просто устанавливают связь между методами на основе градиентов и четностями и предполагают, что методы на основе градиентов действительно маловероятны. решать проблемы обучения, которые, как известно, являются сложными в рамках статистических запросов, в частности, сторон.

Разложение против сквозного

Для обучения и оптимизации есть два основных подхода на выбор: сквозной или путем декомпозиции. В этом разделе авторы пытаются выяснить, стоит ли использовать сквозной подход (авторы сосредотачиваются на аспекте оптимизации, показывая, что «сквозной» подход может страдать из-за низкого уровня сигнала до конца. коэффициент шума, который может повлиять на время обучения). В этом разделе представлены два эксперимента.

Эксперимент 1
В этом эксперименте сравниваются два подхода в условиях компьютерного зрения. Авторы определяют семейные проблемы и показывают, что по мере роста k (k ∈ N) разрыв между », А подход« Декомпозиция »растет.
В экспериментах X1 обозначает пространство из 28 * 28 двоичных изображений, и он использует некоторые функции для определения распределения.

Я решил опустить подробную конфигурацию этого эксперимента и сразу погрузиться в результаты. При сравнении, основанном на «первичной» цели, мы видим, что «Сквозной» значительно уступает «Разложению». Используя «декомпозицию», мы можем быстро прийти к хорошему решению.

Эксперимент 2
Рассмотрим проблему обучения предсказателя, которому дается «положительная ссылка в СМИ» x на определенный фондовый опцион. Это каким-то образом распределит наши активы между k = 500 акциями в индексе S & P500. Как мы упоминали выше, есть также два способа:
• «Сквозной» подход: обучить глубокую сеть Nw, которая при заданном x выводит распределение по k акциям. Цель обучения - максимизировать прибыль, полученную при распределении наших денег в соответствии с этим распределением.
• Подход «разложения»: обучите глубокую сеть Nw, которая при заданном x выводит единственную акцию y 2 [k], будущая прибыль которой наиболее положительно коррелирует с x. Конечно, нам может потребоваться собрать дополнительную маркировку для обучения Nw на основе этого критерия.

Авторы проводят сравнительные эксперименты, исходя из нереалистичных предположений. Подробную информацию о конфигурации см. В документе.

На рисунке 4 ясно видно, что использование «Сквозной» оценки для оптимизации уступает работе с «Разложением».

Авторы подходят к анализу через изучение отношения сигнал / шум (SNR) двух стохастических оценок градиента, и это показывает, что «сквозной» метод значительно уступает.

На рисунке 5 легко увидеть, что подход «от конца до конца» страдает от значительно более низкого отношения сигнал / шум. Что еще более важно, он показывает зависимость от k и быстро падает ниже машинной точности; тогда как отношение сигнал / шум подхода «разложения» является постоянным.
Таким образом, авторы получают дополнительные доказательства преимуществ прямого надзора, когда это применимо к проблеме.

Архитектура и кондиционирование

Выбор сетевой архитектуры обычно связан с двумя соображениями: первое - улучшить выразительность сети, не увеличивая резко сложность выборки, а второе - повысить вычислительную сложность обучения. Выбор архитектуры обычно влияет на время обучения.

Авторы экспериментируют с различными решениями глубокого обучения для кодирования структуры одномерных, непрерывных, кусочно-линейных (PWL) кривых. Авторы рассматривают выпуклую задачу с большим числом обусловленности и улучшенное число обусловленности за счет сверточной архитектуры. Путем теоретического анализа авторы отмечают, что применение сверточной архитектуры имеет решающее значение для эффективности кондиционирования, а совместное использование лучшей архитектуры и кондиционирования - вот что позволяет нам добиться этого значительного улучшения.

Авторы также экспериментируют с более глубокой архитектурой кодирования. Каждая из двух сетей имеет три уровня с активациями ReLU, за исключением выходного слоя M, имеющего линейную активацию. Размеры слоев: 500, 100, 2k для N и 100, 100, n для M.

Из рисунка 6 авторы предполагают, что, если дополнительная выразительная сила не нужна, она не решает внутренних проблем оптимизации.

Плоские активации

Плоскостность поверхности потерь из-за насыщения функций активации приведет к исчезновению градиентов и замедлению процесса обучения, что создает трудности для оптимизации. Авторы рассматривают семейство функций активации, которые являются кусочно-плоскими и усиливают проблему «исчезающего градиента из-за насыщенной активации».
Всего четыре эксперимента:

Для эксперимента с неплоской аппроксимацией авторы пытаются аппроксимировать u с помощью неплоской функции. Хотя цель не является полностью плоской, она страдает плоскостностью, и обучение с использованием этой цели происходит намного медленнее. Иногда это даже выходит из строя. Также авторы показывают, что чувствительность к инициализации смещения член.

Для сквозного эксперимента этот подход может найти разумное решение, но, как говорят авторы, он принесет на первый план выходят неточности в захвате точек прерывания, и это потребует дополнительных затрат из-за использования гораздо большей сети.

Для эксперимента с несколькими классами авторы подходят к проблеме как к общей проблеме классификации нескольких классов, где каждое значение изображения u рассматривается как отдельный класс. Проблема в неточностях на границах между классами. Кроме того, упорядочение, которое мы проигнорировали, приводит к более высокой сложности выборки.

Для эксперимента «только вперед» его можно интерпретировать как замену сообщения обратного распространения для функции активации на сообщение идентификации. Этот метод дает наилучшие результаты, доказательство которых авторы приводят в приложении.

Вывод:

В этом документе представлены наиболее распространенные сценарии отказа в четырех условиях. Он также предоставляет теоретические сведения, объясняющие их источник и способы их устранения. Единственный недостаток заключается в том, что он не охватывал очень глубокие сети, но, честно говоря, очень глубокие сети настолько сложны, что условия, в которых проводилось исследование, могут измениться.

Ссылка:

[1] Нгуен, Ан, Джейсон Йосински и Джефф Клун. «Глубокие нейронные сети легко обмануть: предсказания с высокой степенью достоверности для неузнаваемых изображений». Труды конференции IEEE по компьютерному зрению и распознаванию образов. 2015 г.

Автор: Шиксин Гу | Редактор: Чжэнь Гао