[Вывод] Изучение переносимых архитектур для масштабируемого распознавания изображений

Основная идея. Архитектурная инженерия находит применение при разработке нейронных сетей для распознавания изображений. Основная идея документа заключается в том, чтобы выполнить архитектурный инжиниринг в меньшем наборе данных, а затем перенести этот архитектурный блок в больший набор данных, тем самым снизив затраты. Ключевым вкладом этой работы является разработка нового пространства поиска под названием NASNet Search Space. Это пространство поддерживает переносимость.

В статье делается попытка найти наилучший сверточный слой для набора данных CIFAR, а затем формируется сверточная архитектура путем создания нескольких копий этого слоя и формирования сети для этого набора данных.

В документе также говорится о ScheduledDropPath, методе регуляризации, который значительно улучшает обобщение в моделях NASNet. Подводя итог, можно сказать, что поиск наилучшего сверточного слоя эквивалентен поиску наилучшей структуры ячеек для определенного набора данных. Используя этот подход, мы видим значительное улучшение поиска лучших архитектур с использованием CIFAR-10 в 7 раз, а также то, что он изучает архитектуры, которые успешно переносятся в ImageNet. Наилучшей архитектурой, как упоминается в документе, является NASNet, которая обеспечивает современную точность при переносе в классификацию ImageNet. Основным методом поиска, используемым в этой работе, является структура поиска нейронной архитектуры (NAS).

В документе дается подробное объяснение того, как инфраструктура NAS ищет наилучшую архитектуру сверточного слоя. Разработана концепция скрытых и редукционных ячеек и объяснены этапы синтеза слоев. Кроме того, в документе обсуждаются результаты сравнения модели NASNet с набором данных при сравнении ее с подобными вариантами DenseNet, Shake-Shake. В этом сравнении модель NASNet выглядит явным победителем с частотой ошибок 2,40, что является современным уровнем техники. Сравнения также проводились в наборе данных ImageNet Image Classification. В документе эмпирически также доказывается, что перенос изученной модели из набора данных CIFAR-10 в набор данных ImageNet дает ожидаемые результаты, тем самым доказывая, что функции могут быть перенесены из меньшего набора данных в больший набор данных.

Третье важное сравнение состоит в том, чтобы понять производительность модели NASNet по одной из наиболее важных проблем классификации изображений — пространственной локализации объектов на изображении. Сравнение основано на проверке того, приводят ли системы обнаружения объектов, созданные на основе NASNet-A, к улучшениям в обнаружении объектов. Из результатов видно, что NASNet обеспечивает превосходные общие характеристики изображений, которые могут быть перенесены в другие задачи компьютерного зрения. Кроме того, также проводится сравнительное исследование между обучением с подкреплением и случайным поиском, чтобы сделать вывод о том, какая стратегия является наиболее эффективной для метода поиска в модели NASNet. Результатом исследования является то, что обучение с подкреплением можно рассматривать как альтернативу случайному поиску.

Основные моменты:

1. На самом CIFAR-10 сеть NASNet, найденная нашим методом, достигает коэффициента ошибок 2,4%, что является самым современным показателем.

2. Благодаря инфраструктуре лучшая ячейка для сверточного слоя дает такие преимущества, как, например, это намного быстрее, чем поиск всей сетевой архитектуры, и сама ячейка с большей вероятностью обобщается на другие проблемы.

3. Одной из лучших особенностей модели является переносимость изученных функций. Можно перенести особенности, изученные из одной модели, в другую модель аналогичной постановки задачи.

4. Основным методом поиска, использованным в данной работе, является фреймворк Neural Architecture Search (NAS).

5. В этом подходе общая архитектура сверточных сетей предопределяется вручную.

6. Изученная архитектура достаточно гибкая, поскольку ее можно масштабировать с точки зрения вычислительной стоимости и параметров, чтобы легко

7. Ключевым моментом подхода является проектирование пространства поиска, которое отделяет сложность архитектуры от глубины сети.

8. Результаты ImageNet особенно важны, потому что многие современные задачи компьютерного зрения (например, обнаружение объектов, обнаружение лиц, локализация изображений) получают характеристики или архитектуры изображений из моделей классификации ImageNet.

Идеи?

1. В этом подходе общая архитектура сверточных сетей предопределяется вручную. Можно ли автоматизировать этот метод? Покажет ли автоматизация этого метода заметные улучшения в NASNet.

2. Можно ли использовать какой-либо другой метод регуляризации для достижения лучших результатов, чем SchedulePathDrop.

[Вывод] Изучение переносимых архитектур для масштабируемого распознавания изображений

Вопросы по теме