(команда AIWithoutBorders)

Особая благодарность Гагане, Кевину Гарде, Тони Холдройду, Дэниелу Дж. Брозу, которые помогли мне написать блог своим техническим опытом.

"Источник"

1. Введение

Хотя модели глубокой сверточной нейронной сети (DCNN) для задач понимания визуальной сцены достигли высокой точности, эти тесты можно улучшить, увеличив глубину и ширину сети при одновременном снижении скорости и мощности. Но большие сети, как известно, проблематичны при семантической сегментации и других задачах, требующих большого объема вычислений. Однако реальные приложения, такие как автономные/безуправляемые блокировки, автоматизированные промышленные медицинские роботы и приложения дополненной реальности в медицине, армии или навигации, являются чувствительными и требуют распределенной обработки границ и локальной аналитики нижнего уровня. Чтобы справиться с этой вычислительной сложностью широких сетей, факторизация свертки была определена как эффективная тактика. Мы использовали сверточный модуль, называемый эффективной пространственной пирамидой (ESP), основанный на сверточной факторизации, для семантической сегментации немелкоклеточного рака легкого (с внутривенным контрастированием или без него), направленного на лечебную лучевую терапию. ESP — это эффективная структура, которую можно легко развернуть на периферийных устройствах, которые раздвигают границы вычислений до логических пределов в средах с ограниченными ресурсами, что делает ESPNet быстрой, небольшой сетевой структурой, способной работать с низким энергопотреблением и низкой производительностью. задержка при сохранении точности семантической сегментации.

2 Модель:

Архитектура показана на рис. 1. Ее послойная композиция выглядит следующим образом: (а) стандартный слой свертки разлагается на точечную свертка, что также помогает уменьшить размерность и пространственную пирамиду расширенных сверток до построить эффективный модуль пространственной пирамиды (ESP). (b) пропуски соединений между входом и выходом улучшают поток данных. Расширенные сверточные слои обозначаются как (количество входных каналов, эффективный размер ядра, # выходных каналов). Эффективные пространственные размеры расширенного ядра свертки равны nₖ× nₖ , где nₖ = (n−1)2^(k−1) + 1, k = 1, · · · , K. Обратите внимание, что участвуют только n × n пикселей. в расширенном сверточном ядре.

а. Модуль ESP:

Если мы посмотрим на базовый модуль ESP, то увидим, что он основан на принципе факторизации свертки, который разбивает стандартную свертка на два этапа: (1) точечные свертки и (2) пространственная пирамида расширенных сверток.

(1)Точечные свертки:

Точечные свертки, также известные как свертки 1x1, имеют следующие особенности:

  • Уменьшить или увеличить размерность
  • Применить нелинейность снова после свертки
  • Может рассматриваться как «объединение функций»

Предполагая, что у нас есть изображение размером 32x32x100, где 100 — количество функций, на выходе будет изображение 32x32x20 после сверточной фильтрации 1x1.

"Источник"

Функция точечной свертки заключается в применении свертки 1 × 1 к изображению, чтобы спроецировать карты объектов высокой размерности на пространства более низкой размерности.

(2) Пространственная пирамида диализированных извилин:

Это второй шаг модуля. Во-первых, давайте разберемся, что такое диалированные извилины.

(a)Набор:

Стандартная свертка (слева), расширенная свертка (справа)

Расширенная свертка похожа на стандартное уравнение свертки. При суммировании s+lt=p, где s — шаг, l — коэффициент расширения, а p — заполнение нулями, операция свертки расширения пропускает некоторые точки.

Когда l=1, это стандартная свертка.

Когда l›1, это расширенная свертка.

"Источник"

Расширенная свертка (l=2)

Эффект рецептивного поля по отношению к коэффициенту дилатации показан.

"Источник"

Пространственная пирамида расширенных сверток затем выполняет повторную выборку полученных низкоразмерных карт признаков, используя K и n × n расширенных сверточных ядер одновременно, каждое из которых связано со степенью расширения 2 ^ ( k − 1), k = {1, · · ·, K}, где количество параметров и требования к памяти модуля ESP резко сокращаются этой факторизацией, сохраняя при этом большую эффективную

рецептивное поле определяется как (n − 1) 2 ^ ( K − 1) + 1. Каждое расширенное сверточное ядро ​​​​усваивает веса с различными рецептивными полями, результат чего напоминает пространственную пирамиду и поэтому называется пространственной пирамидой расширенных извилин. Карта входных объектов Fᵢ ∈ R^(W ×H×M) и применяет N ядер K ∈ R^(m×n×M) для создания карты выходных объектов Fₒ∈ R^(W ×H×N), где W — ширина карты объектов, m — ширина ядра, а H — высота

карта признаков, а n — высота ядра, а M и N — количество входных и выходных каналов признаков.

Для простоты, если вы предполагаете, что m = n, стандартное сверточное ядро ​​изучает параметры n²MN, которые мультипликативно зависят от пространственных размеров ядра n×n и количества входных M и выходных N каналов.

Разделитель ширины K. Вводя делитель ширины и гиперпараметр K, мы снижаем вычислительные затраты за счет равномерного уменьшения размерности карт объектов в каждом модуле ESP в сети.

Сокращение: учитывая K, ESP уменьшает существующие карты объектов из M в N-мерное пространство через K-мерное пространство с использованием точечной свертки.

Разделение: низкоразмерные карты объектов разделены на K параллельных ветвей.

Преобразование: Затем каждая из K параллельных ветвей вводит различные скорости расширения 2 ^ (k−1), k = {1, · · ·, K − 1} для одновременной обработки карт признаков с использованием nxn расширенных сверточных ядер.

Слияние: выходные данные каждого из K параллельных расширенных сверточных ядер объединяются для создания N-мерной выходной карты объектов.

b.Архитектура модели

"Источник"

«Путь от ESPNet-A к ESPNet показан. Красные и зеленые прямоугольники представляют модули, отвечающие за операции понижения и повышения частоты дискретизации соответственно. Пространственный уровень l указан слева от каждого модуля в (а). Каждый модуль обозначается как (# входных каналов, # выходных каналов). Здесь Conv-n представляет свертку n × n.

⍺ :

Для создания вычислительно более эффективных и эффективных сетей без изменения топологии сети был введен этот гиперпараметр ⍺, который управляет глубиной модели. Модуль ESP повторяется ⍺ₗ раз на уровне l. CNN требуют больше памяти на более высоких пространственных уровнях (на l = 0 и l = 1) из-за больших размеров карт признаков на этих уровнях. Для эффективного использования памяти ни ESP, ни сверточные модули не повторяются на этих уровнях. Но на более поздних уровнях их можно повторить, чтобы достичь большей глубины. Итак, мы взяли α₂= 2 и α₃= 8.

3 Проверка реальности ESPNet-Performance

1. Сравнение производительности сетей семантической сегментации, таких как предварительно обученные сети (VGG: FCN-8s и SegNet, ResNet: DeepLab-v2 и PSPNet и SqueezeNet SQNet, или сети, обученные с нуля (ENet и ERFNet), с производительностью ESPNet показывает что последний на 2% точнее, чем ENet, при этом работает в 1,27 и 1,16 раза быстрее на настольном компьютере и ноутбуке соответственно.

2. ESPNet страдает от более низкой точности по классам, что означает, что он не слишком хорошо работает с классами, принадлежащими к той же категории. Например, всадника можно спутать с человеком. Тем не менее, ESPNet обеспечивает хорошую точность по категориям. ESPNet имеет на 8% более низкую категорию mIOU, чем PSPNet, при этом изучая в 180 раз меньше параметров

3. ERFNet имеет лучшую точность семантической сегментации, чем ESPNet, но также является более громоздкой с в 5,5 раза большим количеством параметров и, следовательно, в 5,44 раза больше, потребляет больше энергии и имеет более высокую скорость разряда батареи.

4 ссылки:

1. https://arxiv.org/pdf/1803.06815.pdf

2. https://towardsdatascience.com/review-dilated-convolution-semantic-segmentation-9d5a5bd768f5

3. https://ikhlestov.github.io/pages/machine-learning/convolutions-types/#spatial-and-cross-channel-convolutions