В этой истории рассматривается ZFNet [1]. ZFNet является своего рода победителем ILSVRC (Крупномасштабное соревнование по визуальному распознаванию ImageNet) 2013, которое представляет собой соревнование по классификации изображений, которое значительно превосходит AlexNet [2], победитель ILSVRC 2012.

Некоторые люди / статьи думают, что ZFNet не победитель, этот вывод может быть сделан на основе рейтинга ILSVRC, который, как показано выше. Однако Clarifai - это компания, основанная автором ZFNet Зейлером. Кроме того, согласно ImageNet Large Scale Visual Recognition Challenge, он упомянул:

«В соревновании ILSVRC2013 приняли участие 24 команды по сравнению с 21 командой за предыдущие три года вместе взятых. После успеха метода, основанного на глубоком обучении в 2012 году, подавляющее большинство работ в 2013 году использовали глубокие сверточные нейронные сети. Победителем в задаче классификации стал Clarifai, усредненный по нескольким большим глубоким сверточным сетям. Сетевая архитектура была выбрана с использованием техники визуализации (Zeiler and Fergus, 2013),… »

Ссылка (Zeiler and Fergus, 2013), процитированная в приведенном выше отрывке, является ZFNet. Таким образом, официально объявлено, что ZFNet - победитель!

Это статья 2014 ECCV с более чем 4000 цитирований, когда я писал эту статью. Это важная статья, которая учит нас визуализировать ядра CNN в глубоких слоях. (Сик-Хо Цанг @ средний)

ImageNet - это набор данных, включающий более 15 миллионов изображений с высоким разрешением и около 22 000 категорий. ILSVRC использует подмножество ImageNet из примерно 1000 изображений в каждой из 1000 категорий. Всего существует примерно 1,3 миллиона обучающих изображений, 50 000 изображений для проверки и 100 000 изображений для тестирования.

Некоторые факты о рейтинге

В 2013 году ZFNet была изобретена доктором Робом Фергусом и его аспирантом в то время доктором Мэтью Д. Зейлером из Нью-Йоркского университета. (Проф. Янн ЛеКун, изобретатель LeNet, также из Нью-Йоркского университета. Следовательно, они также благодарят профессора ЛеКуна за обсуждения при упоминании в статье.) Вот почему она называется ZFNet, в зависимости от их фамилии, Цайлер и Фергус, с документ ECCV 2014 года под названием «Визуализация и понимание сверточных сетей» [1]. Строго говоря, ZFNet на самом деле не является победителем ILSVLC 2013. Вместо этого Clarifai, которая на тот момент была новой начинающей компанией, является победителем ILSVLC 2013 по классификации изображений. И Цайлер также является основателем и генеральным директором Clarifai.

Как показано на рисунке выше, ZFNet значительно улучшила частоту ошибок классификации изображений по сравнению с AlexNet [2], победителем в ILSVRC 2012. И Clarifai имеет лишь небольшое улучшение по сравнению с ZFNet. (Более подробную информацию о рейтинге см. В [3].) Тем не менее, когда мы говорим о сети глубокого обучения победителя ILSVLC 2013, мы обычно говорим о ZFNet [1].

Что мы расскажем

Как и почему сверточные сети могут работать так хорошо, всегда остается загадкой. В большинстве случаев мы можем рассуждать только с помощью интуитивного объяснения или эмпирического эксперимента. В этой истории я расскажу, как ZFNet визуализирует сверточную сеть. Визуализируя сверточную сеть, ZFNet стала победителем ILSVLC 2013 в классификации изображений путем точной настройки AlexNet, изобретенной в 2012 году. Следовательно, разделы, которые необходимо охватить:

  1. Методы деконвнета для визуализации
  2. Визуализация для каждого слоя
  3. Модификации AlexNet на основе результатов визуализации
  4. Экспериментальные результаты
  5. Выводы

1. Методы деконвнета для визуализации

Как мы должны знать, стандартным шагом в структуре глубокого обучения является выполнение серии Conv ›Rectification (Activation Function)› Pooling. Чтобы визуализировать функцию глубокого слоя, нам нужен набор методов дековнета, чтобы отменить вышеупомянутые действия, чтобы мы могли визуализировать функцию в пиксельной области.

1.1. Отмена пула

Операция максимального объединения необратима, однако мы можем получить приблизительное обратное значение, записав положения максимумов в каждой области объединения, как на рисунке выше.

1.2. Исправление (функция активации)

Поскольку ReLU используется в качестве функции активации, а ReLU должен сохранять все значения положительными, а отрицательные значения делать равными нулю. В обратной операции нам просто нужно снова выполнить ReLU.

1.3. Деконв.

Для выполнения операции deconv, действительно, это транспонированная версия conv.

2. Визуализация для каждого слоя

При использовании методов деконвертирования для каждого слоя отображаются 9 верхних активированных паттернов в случайно выбранных картах признаков. И две проблемы наблюдаются в слое 1 и слое 2.

(i) Фильтры на уровне 1 представляют собой смесь информации о чрезвычайно высоких и низких частотах с небольшим охватом средних частот. Без средних частот возникает цепной эффект, что глубокие черты могут извлекать уроки только из информации чрезвычайно высоких и низких частот.

(ii) Слой 2 показывает артефакты наложения спектров, вызванные большим шагом 4, используемым в свертках 1-го слоя. Псевдонимия возникает при слишком низкой частоте дискретизации.

Рассмотрим еще 3 слоя.

Слой 3 начинает изучать некоторые общие шаблоны, такие как узоры сетки и текстовые узоры.

Слой 4 показывает значительные различия и больше относится к классу, например морды собак и лапки птиц.

Слой 5 показывает целые объекты со значительными вариациями позы, например клавиатуры и собак.

3. Модификации AlexNet по результатам визуализации

ZFNet перерисован в том же стиле, что и AlexNet, для простоты сравнения. Чтобы решить две проблемы, наблюдаемые на уровне 1 и уровне 2, ZFNet вносит два изменения. (Чтобы прочитать обзор AlexNet, посетите [4].)

(i) Размер фильтра 1-го слоя уменьшен с 11x11 до 7x7.

(ii) Сделал шаг 1-го слоя свертки 2, а не 4.

4. Результаты экспериментов

4.1. Модифицированная ZFNet на основе исследования абляции

Также существуют исследования абляции по удалению или корректировке слоев. Модифицированный ZFNet может получить 16,0% при первой пятерке ошибок проверки.

4.2. Сравнение с современными подходами

При использовании AlexNet частота ошибок проверки в первой пятерке составляет 18,1%.

При использовании ZFNet частота ошибок валидации в топ-5 составляет 16,5%. Можно сделать вывод, что модификации на основе визуализации необходимы.

При использовании 5 ZFNet из (a) и 1 модифицированной ZFNet из (b), частота ошибок валидации в топ-5 составляет 14,7%. Это снова своего рода техника повышения, которая уже использовалась в LeNet и AlexNet. (Пожалуйста, посетите [5] и [4], чтобы узнать больше о технике усиления.)

4.3. Также тестируются другие относительно небольшие наборы данных.

Из приведенных выше таблиц мы видим, что точность без предварительного обучения ZFNet с использованием изображений ImageNet, то есть обучения ZFNet с нуля, низкая. С обучением (точной настройкой) поверх предварительно обученной ZFNet точность намного выше. Это означает, что обученные фильтры обобщаются для разных изображений, а не только для изображений для ImageNet.

ZFNet дает потрясающие результаты, особенно для наборов данных Caltech 101 и Caltech 256.

Для PASCAL 2012 изображения PASCAL могут содержать несколько объектов и сильно отличаться от природы по сравнению с изображениями в ImageNet. Таким образом, точность немного ниже, но все же конкурентоспособна с современными подходами.

5. Выводы

Хотя ранее можно было наблюдать только мелкие особенности слоя, эта статья предлагает интересный подход для наблюдения глубоких особенностей в пиксельной области.

Путем визуализации сверточной сети слой за слоем ZFNet регулирует гиперпараметры слоя, такие как размер фильтра или шаг AlexNet, и успешно снижает частоту ошибок.

Важно знать больше о современных подходах, чтобы лучше понимать глубокое обучение. Я напишу еще рассказы.

Пожалуйста, не переключайтесь!!!

использованная литература

  1. [2014 ECCV] [ZFNet]
    Визуализация и понимание сверточных сетей
  2. [2012 NIPS] [AlexNet]
    Классификация ImageNet с глубокими сверточными нейронными сетями
  3. Рейтинг ILSVRC 2013
    http://www.image-net.org/challenges/LSVRC/2013/results.php#cls
  4. Обзор AlexNet, CaffeNet - Победитель ILSVRC 2012 (Классификация изображений)
  5. Обзор LeNet-1, LeNet-4, LeNet-5, Boosted LeNet-4 (Классификация изображений)

Получайте лучшие предложения по программному обеспечению прямо в свой почтовый ящик