Прорыв нейронной сети в компьютерном зрении

В предыдущих историях были представлены R-CNN, Fast R-CNN, и они продемонстрировали, что более глубокая нейронная сеть обеспечивает более низкую частоту ошибок. Однако более глубокую нейронную сеть сложно обучить с точки зрения сложности. Он и др. Изобрели ResNet в 2014 году, которая выиграла задачу классификации ILSVRC 2015.

ResNet — это новая нейронная архитектура для снижения сложности и устранения деградации при сохранении хорошей производительности. За счет снижения сложности необходимо обучить меньшее количество параметров и тратить меньше времени на обучение. В этой статье будет обсуждаться Глубокое остаточное обучение для распознавания изображений (He et al., 2014), и будут рассмотрены следующие вопросы:

  • Данные
  • Архитектура
  • Эксперимент

Данные

Размер тренировочного изображения изменяется в диапазоне от 256 до 480 в зависимости от его более короткой стороны случайным образом. Как и в случае с VGG, масштабированные обучающие изображения обрезаются случайным образом. Этап обработки, вычитание среднего значения RGB, является единственным шагом на этапе обработки данных. Для увеличения объема данных для обучения модели применяется аугментация данных. Обрезанные изображения будут переворачиваться по горизонтали и случайным образом смещаться в RGB.

Архитектура

Для решения вышеупомянутой проблемы предлагается структура глубокого остаточного обучения. Подавая идентичное отображение из предыдущего слоя, его легче оптимизировать.

Остаточная сеть может использоваться, если и вход, и выход имеют одинаковые размерности. Мы можем использовать следующую формулу для расчета выхода.

В противном случае, если выходное измерение больше входного, оно может либо

  • Добавить дополнение к остаточной сети
  • Выполните линейную проекцию, чтобы соответствовать новым размерам.

Помимо базовой остаточной нейронной сети, авторы также рассматривают расширенную версию, называемую узким местом. Те же входные и выходные измерения, но узким местом является более глубокая нейронная сеть.

Эксперимент

Никаких дополнительных параметров в ResNet-18 и ResNet 34 не вводится по сравнению с обычным-18 и обычным-34. Однако лучший результат дает ResNet.

Дальнейшее сравнение с другими моделями глубоких нейронных сетей. ResNet-152 достигает наилучшей ошибки как по первой, так и по пятой ошибке. Кроме того, авторы сравнивают три разных подхода в ResNet-34, а именно:

  • A: Заполнение остаточной нейронной сети при увеличении выходного размера
  • B: выходное измерение проекта, если оно увеличено
  • C: Выходное измерение проекта все время

C работает лучше, чем A и B. Вывод состоит в том, что для обучения вводится больше параметров. Тем не менее, авторы решили не использовать подход C, потому что компромисс заключается в увеличении параметров, в то время как есть лишь небольшое улучшение.

Забрать

  • Как и в сети шоссейных дорог, для улучшения модели введено короткое соединение, а отличие состоит в том, что сеть шоссейных дорог имеет ворота для управления ярлыком. Он может закрыть ворота и не привести к отображению идентификации на следующие слои, в то время как ResNet всегда разрешает это.

Обо мне

Я Data Scientist в Bay Area. Сосредоточение внимания на современном состоянии науки о данных, искусственном интеллекте, особенно в НЛП и связанных с платформами. Вы можете связаться со мной из Medium Blog, LinkedIn или Github.

Ссылка