Всем привет! На этой неделе мы предоставим информацию об архитектуре сверточных нейронных сетей, которые мы будем использовать в нашем проекте, и моделях, которые используют эту архитектуру. Вторую неделю можно найти здесь.

Что такое сверточная нейронная сеть?

В глубоком обучении сверточная нейронная сеть (CNN или ConvNet) представляет собой класс глубоких нейронных сетей, наиболее часто применяемых для анализа визуальных образов. Этот метод часто используется для распознавания изображений и видео, классификации изображений в системах подсказок, анализа медицинских изображений и обработки естественного языка.

Cnn использует уникальные особенности, которые превращают самолет в самолет или змею в змею, чтобы различать данные изображения. Фактически, этот процесс происходит в нашем мозгу неосознанно. Например, когда мы смотрим на изображение самолета, мы можем определить его, разделив характеристики двух крыльев, двигателей и окон. Cnn делает то же самое, но до того, как обнаружит низкоуровневые функции, такие как кривые и кромки, и преобразует их в более абстрактные концепции.

Ниже приведены уровни и свойства архитектуры Cnn:

Сверточный слой - используется для определения свойств
Слой нелинейности - Введение в нелинейность
Слой объединения (понижающая дискретизация) - уменьшает количество весов и подходит для элементов управления.
Слой сглаживания - готовит данные для Классическая нейронная сеть
Слой с полным подключением - Стандартная нейронная сеть, используемая при классификации

LeNet-5

Это первая успешная 7-уровневая модель cnn. LeNet-5, который классифицирует числа, был применен для распознавания рукописных цифр размером 32x32 пикселя в оттенках серого. В отличие от других моделей, которые будут разработаны позже в этой модели, средний пул выполняется вместо максимального пула на этапах уменьшения размера. Кроме того, сигмовидный и гиперболический тангенс используются в качестве функций активации. В отличие от других моделей, которые будут разработаны позже в этой модели, средний пул выполняется вместо максимального пула на этапах уменьшения размера. Кроме того, сигмовидный и гиперболический тангенс используются в качестве функций активации. Эта архитектура имеет около 60 000 параметров.

AlexNet

По сути, она очень похожа на модель LeNet из-за последовательных уровней свертки и объединения. Но чем глубже, тем больше слоев на слой. AlexNet имеет 60 миллионов параметров и 8 уровней - 5 сверточных и 3 полносвязных. ReLU (Rectified Linear Unit) используется как функция активации, а max-pooling используется в уровнях объединения.

ВГГ-16

Модель vgg16, которая представляет собой простую сетевую модель и наиболее важным отличием от других моделей, является использование слоев свертки с двумя или тремя. На уровне полной связи (FC) 7x7x512 = 4096 преобразуется в вектор атрибутов с нейроном. На выходе двух слоев FC вычисляется производительность softmax класса 1000. Рассчитано около 138 миллионов параметров. Как и в других моделях, размеры матриц по высоте и ширине уменьшаются, а значение глубины (количество каналов) увеличивается. Фильтры с разными весами вычисляются на выходе каждого сверточного слоя модели, а также как количество слоев. увеличивается, атрибуты, сформированные в фильтрах, представляют большую глубину изображения.

Увидимся на следующей неделе…