BiSeNet для сегментации в реальном времени, часть I

В этом посте я расскажу вам о сети двусторонней сегментации для семантической сегментации в реальном времени.

Последние две недели я читал и извлекал знания из этой интересной исследовательской статьи, которую я нашел на arXiv.org, которая направлена на повышение точности, скорости вывода и многих других проблем, с которыми сталкивается наша современная модель. в области семантической сегментации.

Что такое семантическая сегментация и почему вам это нужно?

Семантическая сегментация - важная область исследований компьютерного зрения для задач анализа изображений. Основная цель этого метода - присвоить семантические метки каждому пикселю изображения, например (автомобиль, дом, человек…).

Другими словами, я думаю, что семантическая сегментация - это тип системы обнаружения объектов, которая может секционировать / отслеживать (сегментировать) объект и назначать метки каждому пикселю из таких входов, как изображение или видео.

У меня есть еще один пост с более подробной информацией по этой теме. Итак, если вы хотите узнать больше об этом, например, о том, что можно применить семантическую сегментацию и основные задачи, ознакомьтесь с этим сообщением об этом.

Предыдущие подходы

Семантическая сегментация извлекает важные особенности из входного изображения / видео с помощью двух компонентов, а именно:

Богатая пространственная информация и
Значительное принимающее поле

Однако современные подходы обычно включают как пространственное разрешение, так и воспринимающее поле для достижения скорости вывода в реальном времени, что приводит к плохой производительности.

Как включение любого из этих или двух компонентов влияет на прогноз модели?

Недавние статьи / работы в области семантической сегментации показали, что есть 3 способа увеличить скорость вывода модели.

ICNet и Сегментация изображений в реальном времени с помощью пространственной разреженности, например, ориентированы на создание практически быстрой семантической сегментации Система с приличной точностью предсказания. Это означает, что семантическая сегментация выполняется быстро, сокращая вычислительные затраты и не жертвуя слишком большим качеством.

В двух упомянутых выше документах используется один из трех подходов: попытка ограничить размер ввода для уменьшения сложности вычислений путем обрезки или изменения размера. Хотя метод прост и эффективен, потеря пространственных деталей (функций) искажает прогноз, особенно вокруг границ, что приводит к снижению точности как для показателей, так и для визуализации.

Ограничить размер ввода. Ограничьте размер входного изображения, т. е. размер входного сетевого изображения ограничен 512x512, поэтому изображения с более высоким разрешением будут изменены / обрезаны.

Вместо изменения размера входного изображения некоторые из них работают как Xception и т. Д., обрезают каналы сети, чтобы повысить скорость вывода, особенно на ранних этапах создания базы. модель.

Удаление каналов. Удаление каналов напрямую уменьшает ширину карты объектов, в результате чего сеть становится более тонкой. Он эффективен как для ЦП, так и для графического процессора, поскольку не требует специальной реализации.

Для получения дополнительной информации о сокращении ознакомьтесь с этим документом здесь.

В последнем случае ENet (эффективная нейронная сеть) предлагает отказаться от операций понижающей дискретизации на последнем этапе, вместо этого она использует операции повышающей дискретизации. что противоположно понижающей дискретизации, что приводит к плохой различительной способности. В своей статье они заявляют, что понижающая дискретизация изображений имеет два основных недостатка. Во-первых, уменьшение разрешения карты объектов влечет за собой потерю пространственной информации. Во-вторых, полная пиксельная сегментация требует, чтобы разрешение на выходе было таким же, как и на входе. Однако понижающая дискретизация имеет одно большое преимущество. Фильтры, работающие с субдискретизированными изображениями, имеют большее воспринимающее поле, что позволяет им покрывать более крупные объекты.

Пониженная дискретизация - уменьшение размера цифрового аудиосигнала за счет уменьшения частоты дискретизации или размера дискретизации. Другими словами, уменьшение количества пикселей изображения - это форма повторной выборки изображения или реконструкции изображения.

В целом, все вышеперечисленные методы ставят под угрозу точность ради скорости.

Исследователи также пытаются исправить упомянутую выше потерю пространственных деталей, используя U-образную структуру. Объединяя иерархические особенности магистральной сети, U-образная структура постепенно увеличивает пространственное разрешение и заполняет некоторые недостающие детали. Однако у этой техники есть два недостатка.

Полная U-образная структура может снизить скорость модели из-за дополнительных вычислений.
Большую часть пространственной информации, потерянной при сокращении, восстановить нелегко.

Решение проблем, упомянутых выше

Чтобы решить дилемму жертвовать точностью ради скорости, в статье предлагается Сеть двусторонней сегментации (BiSeNet), состоящая из двух частей:

Пространственный путь
Контекстный путь

Я уже сделал сообщение, подробно объясняющее все об этих двух частях и о том, как они работают, нажмите здесь, чтобы проверить это.

Исследователи разработали Пространственный путь (SP) с небольшим шагом, чтобы сохранить пространственную информацию и создать объекты с высоким разрешением. Они также разработали Контекстный путь (CP) с быстрой стратегией понижающей дискретизации, которая используется для получения достаточного рецептивного поля, которое работает параллельно с SP. В погоне за большей точностью без потери скорости они реализовали слияние двух путей и уточнение окончательного прогноза. Они предлагают новую функцию Fusion Module (FFM) для эффективного комбинирования функций и Attention Refinement Module (ARM) для уточнения функций на каждом этапе. . ARM использует глобальный средний пул для захвата глобального контекста и уточнения функции вывода на каждом этапе в CP. Для этого не требуется никаких операций передискретизации. Следовательно, это требует меньших вычислительных затрат.

Резюме

Предлагаемая архитектура обеспечивает правильный баланс между скоростью и производительностью сегментации для наборов данных Cityscapes, CamVid и COCO-Stuff. В частности, для входных данных размером 2048 × 1024 они достигают 68,4% среднего IOU (пересечение над объединением) в тестовом наборе данных Cityscapes со скоростью 105 кадров в секунду (кадров в секунду) на одна карта NVIDIA Titan XP, которая значительно быстрее, чем существующие методы, с сопоставимой производительностью.

На этом мы завершаем часть I этой серии о BiSeNet, следите за новостями, чтобы увидеть еще больше интересного, и часть 2 с кодом за реализацию этого современного исследования Сети семантической сегментации в реальном времени.

Спасибо за чтение, если у вас есть какие-либо мысли, комментарии или критики, пожалуйста, прокомментируйте их ниже.

Если вам это нравится, пожалуйста, подарите мне аплодисменты 👏👏 👏и поделитесь этим со своими друзьями.