Megvii UPerNet выполняет многоуровневую интерпретацию визуальных сцен с первого взгляда

Пекинская компания Megvii Technology, специализирующаяся на компьютерном зрении, работает под управлением крупнейшей в мире технологической платформы распознавания лиц Face ++. Компания предлагает инновационные решения для обнаружения объектов и распознавания изображений с использованием технологий на базе искусственного интеллекта.

На этой неделе главный научный сотрудник Megvii (Face ++) доктор Цзянь Сан и его исследовательская группа представят несколько проектов на Европейской конференции по компьютерному зрению (ECCV) 2018, одном из трех крупнейших международных собраний по обработке изображений и компьютерному зрению.

ИИ проделал впечатляющую работу, решая проблемы визуального распознавания самостоятельно, но ему все еще не хватает способности человека визуализировать обилие информации с первого взгляда. Например, когда человек смотрит на живого В комнате они могут легко анализировать концепции на нескольких уровнях восприятия, например, сцена, объекты, части, текстуры, материалы, а также композиционные структуры, связывающие обнаруженные концепции. Megvii определяет эту способность как унифицированный анализ восприятия (UPP). Выполнение UPP с помощью учебной среды под названием «UPerNet» является предметом недавней статьи Unified Perceptual Parsing for Scene Understanding доктора Сан и др., А также одного из проектов, которые будут представлены на ECCV. .

Первой задачей исследовательской группы было создание высококачественного набора обучающих данных, который является основой обучающей сети. Ни один из существующих наборов данных изображений не может предоставить все уровни визуальной информации, необходимые для UPP, поэтому авторы объединили и стандартизировали различные помеченные наборы данных изображений для конкретных задач: ADE20K; Pascal-Context и Pascal-Part для разбора сцены, объекта и части; OpenSurfaces для распознавания материалов и поверхностей; и набор данных описываемых текстур (DTD) для распознавания текстур. Результатом стал рабочий набор данных Broden + с 57 095 изображениями для обучения модели.

Авторы преодолели проблему неоднородности аннотаций (например, некоторые аннотации являются уровнями изображений, а некоторые - уровнями пикселей), разработав многозадачную структуру для одновременного обнаружения различных визуальных концепций. UPerNet был разработан на основе сети пирамид функций (FPN), в которой используется нисходящая архитектура для извлечения многоуровневых представлений функций во внутренней пирамидальной иерархии.

Поскольку FPN имеет недостаточное эмпирическое принимающее поле, Pyramid Pooling Module (PPM) применяется к последнему уровню магистральной сети перед подачей его в нисходящую ветвь FPN. Кроме того, слияние карт функций FPN используется в аннотациях к объектам и деталям для повышения производительности модели.

Для проверки модели было использовано 36 500 изображений из 365 сцен в наборе данных Places-365. Как количественные, так и качественные результаты показывают, что UperNet эффективен для одновременной унификации многоуровневых визуальных атрибутов и требует конкурентоспособной производительности модели и времени обучения по сравнению с современными современными методами.

UPerNet также может исследовать более глубокое понимание сцены, идентифицируя мультикомпозиционную информацию, такую как объект сцены, объект / часть-материал и отношения материал-текстура из входных изображений. Результаты исследований показывают, что извлеченная информация обоснована и соответствует человеческому пониманию композиционных отношений между этими концепциями.

Статья Unified Perceptual Parsing for Scene Understanding была опубликована на arXiv в июле. Соответствующий открытый исходный код доступен на GitHub.

Источник: Синхронизированный Китай

Локализация: Тинтин Цао | Редактор: Майкл Саразен

Подпишитесь на нас в Twitter @Synced_Global, чтобы узнавать больше об искусственном интеллекте!

Подпишитесь на Synced Global AI Weekly, чтобы получать информативные технические новости, обзоры и анализ! Нажмите здесь!

Megvii UPerNet выполняет многоуровневую интерпретацию визуальных сцен с первого взгляда

Вопросы по теме