Конференция 2018 года на тему Компьютерное зрение и распознавание образов (CVPR) проходила с 18 по 22 июня в Солт-Лейк-Сити, штат Юта. Как ведущая и высококонкурентная конференция в области компьютерного зрения, CVPR предоставляет платформу для разнообразной группы ученых, исследователей, технологов, промышленных гигантов и высокотехнологичных стартапов для демонстрации последних инноваций в этой области.

CVPR в этом году показал значительный рост; что делает ее крупнейшей конференцией CVPR с более чем 6000 участников. CVPR, известная своим тщательным и качественным процессом рецензирования, в этом году получила 3309 документов на конференцию, из которых было принято только 979 статей. Кроме того, на конференции было проведено 21 учебное пособие, 48 семинаров, ежегодный докторский консорциум, а также промышленная выставка, в которой приняли участие около 150 компаний.

Конференция вызвала многочисленные стимулирующие дискуссии и продемонстрировала широкий спектр новых статей и презентаций. В частности, машинное обучение было в авангарде CVPR в этом году, набрав 24% от общего числа исследований с 233 статьями, представленными по этой теме. Исследования по распознаванию объектов и пониманию сцены также преобладали на конференции в этом году, на которой было представлено 202 доклада.

Как один из официальных спонсоров CVPR, команда исследователей машинного обучения SAP Leonardo внесла свой вклад в обсуждение нашего недавнего исследовательского проекта, посвященного мультимодальности как эффективному подходу к устранению недостатков моделей глубокого обучения, сочетающих визуальный и естественный язык.

Наша статья Кросс-модальные галлюцинации для мелкозернистого распознавания »была частью семинара Мелкозернистая визуальная категоризация . В документе предлагается мультимодальный подход, который решает проблему нехватки данных для обучения модели. В нашем подходе к мультимодальному тестированию используется двухэтапный процесс обучения с изображениями и текстовыми описаниями, чтобы лучше обучить модель понимать и определять визуальные классификаторы. Кроме того, наши партнеры по исследованиям из Университета Питтсбурга представили свои работы: Сеть глубокой порядковой регрессии для оценки глубины монокуляра и Эффективный и проверяемый подход к оценке пропорции смеси с использованием предположения линейной независимости.

Мы составили краткое изложение основных тенденций и основных моментов конференции, а также составили собственную подборку статей, которые мы считаем обязательными к прочтению.

Ознакомьтесь с нашим полным отчетом о конференции, включая более подробную информацию и основные статьи.

Краткий обзор основных тенденций и событий

- Мультимодальность: устранение разрыва между визуальным и естественным языком

Мультимодальность была одной из самых заметных тенденций на CVPR в этом году, особенно в моделях видения и языка, таких как системы визуальных ответов на вопросы (VQA) и визуального диалога (VisDial). Визуальные модели и модели естественного языка все еще проходят несколько испытаний, и были выявлены различные недостатки. Одним из таких недостатков является отсутствие интегративного многомодального подхода, который позволил бы улучшить интерпретируемость и восприятие, гарантируя, что системы научатся обобщать.

  • Визуальный ответ на вопрос (VQA): с помощью этой задачи системе дается изображение и естественный вопрос о содержании изображения и просят дать ответ на естественном языке (на пару изображение-вопрос). . Ответы могут быть предоставлены в форме множественного выбора, например системе дается 2–4 варианта ответа, и она должна определить, какой вариант с наибольшей вероятностью будет правильным ответом или с точки зрения заполнения пробелов, когда системе потребуется сгенерировать подходящее слово для данной пустой позиции.
  • Визуальный диалог (VisDial): система ведет содержательный диалог о визуальном содержании с людьми на разговорном языке. Точнее, учитывая изображение, историю диалогов и последующий вопрос об изображении, система должна ответить на вопросы о отображаемом контенте.

Взгляните на наш недавний пост в блоге и запланированный семинар по ECCV для получения более подробной информации по этой теме.

- Синтетические данные, самоконтроль и будущее Al в области медицины

Еще одна тема, которая привлекает все большее внимание, - это использование сложных синтетических данных из сред, которые с высокой точностью имитируют реальный мир, в сочетании с адаптацией предметной области с реальными данными; устранение необходимости в курировании больших данных. Точно так же тема самоконтроля набирает обороты. При самостоятельном обучении метки обучения определяются непосредственно из входных данных, поэтому ручное аннотирование данных не требуется. Один из примеров - решение головоломок, например изображение разрезается на части, которые перемешиваются, и нейронная сеть должна узнать, какие части принадлежат друг другу. Другой пример - использование неограниченного количества цветных видеоданных, в которых данные могут быть преобразованы в оттенки серого, и назначение машине перекраски изображений.
Бумаги для компьютерного зрения, относящиеся к области медицины, по-прежнему составляют небольшую нишу. Однако количество связанных статей увеличивается, поскольку тема продолжает набирать обороты. Темы, охватываемые этой областью исследований, включают многомодальность изображений пациентов и текстовых отчетов, а также сегментацию.

- «Гражданин CVPR»: навыки и этика сообщества CVPR

Великолепной инициативой в этом году стала панель Хороший гражданин CVPR, посвященная формированию культуры и этического кодекса CVPR в сообществе. Панель включала в себя различные занятия по исследованиям, навыкам письма и презентации, а также по таким темам, как представительство, инклюзивность и построение сообщества на основе наставничества и лидерства.

Наша подборка интересных статей

Таскономия: разделение обучения передаче задач (награда за лучшую работу)

Амир Замир, Александр Сакс, Уильям Шен, Леонидас Гибас, Джитендра Малик, Сильвио Саварезе (2018)

Используя полностью сложный вычислительный подход, в документе предлагается «вычислительная таксономическая карта», которая связывает и коррелирует отношения и передает зависимости обучения между различными задачами, чтобы облегчить обучение с передачей задач более эффективным способом. Выявление избыточности в задачах можно использовать для новых задач, просто повторно используя существующие сети в сочетании с функциями передачи функций. В результате количество требуемых помеченных данных может быть значительно уменьшено, поскольку для получения высокого уровня точности может потребоваться всего пара итераций точной настройки.

Эмпирическое исследование топологии и геометрии глубоких сетей

Альхусейн Фаузи, Сейед-Мохсен Мусави-Дезфоли, Паскаль Фроссар, Стефано Соатто (2018)

В этой статье изучается топология областей классификации, созданных глубокими сетями, а также связанная с ними граница принятия решений. Это представляет особый интерес, поскольку по сравнению с другими центральными особенностями глубоких сетей, такими как обобщение, этой области исследований уделялось мало внимания. Авторы представили, что современные глубокие сети могут изучать связанные области классификации. Более того, интересно узнать, что граница принятия решения в непосредственной близости от естественных точек данных является плоской вдоль большинства направлений; тогда как некоторые изогнутые направления являются общими для точек данных. Что касается враждебных возмущений, эти общие направления являются наиболее уязвимыми для глубоких сетей. Кроме того, асимметрия кривизны для реальных точек данных используется для обнаружения злонамеренных образцов из исходных образцов. Наконец, этот чисто геометрический подход является уникальным способом повышения устойчивости классификаторов изображений глубоких нейронных сетей к возмущениям.

Обучение, задавая вопросы

Ишан Мисра, Росс Гиршик, Роб Фергус, Марсьяль Хеберт, Абхинав Гупта, Лоренс ван дер Маатен (2017)

Стандартные модели VQA пассивно полагаются на большие статические наборы данных; в отличие от интерактивной природы человеческого обучения, которое более эффективно и менее избыточно. Документ заполняет этот пробел в исследованиях, вводя более интерактивную модель VQA, называемую «обучение по запросу» (LBA), которая имитирует естественное обучение. В этой модели агент может учиться быстрее и эффективнее, задавая оракулу вопросы о данном изображении. LBA вопросы не наблюдаются во время обучения, агент; однако он должен научиться «самооценивать» свои знания и задавать «хорошие» и «соответствующие» вопросы. Поскольку количество запросов оракула ограничено бюджетом, ученик должен задавать вопросы, которые максимизируют обучающий сигнал от каждой пары изображение-вопрос, отправленной оракулу.

Руководство: взаимодействие с глубокими сетями

Кристиан Руппрехт, Иро Лайна, Нассир Наваб, Грегори Д. Хагер, Федерико Томбари (2018)

В документе предлагается оригинальный подход к повышению производительности предварительно обученной сверточной нейронной сети (CNN) за счет использования дополнительной функции сети, называемой «пространственно-семантический справочник». Это руководство обеспечивает интерактивный диалог между человеком-пользователем и CNN и переводит обратную связь человека в фактические изменения в активациях сети. Обеспечивая одновременную обратную связь с пользователем, сеть может корректировать свои выводы на месте без необходимости дополнительного обучения параметров сети. Следовательно, он имеет некоторое сходство с рассуждениями при частичных доказательствах. Интуитивно понятный способ взаимодействия - это текстовые запросы, отправляемые человеком в сеть, цель которого - улучшить некоторую начальную оценку конкретной задачи, чтобы направить метки классов в определенном направлении. Новизна этого подхода - возможность постоянно улучшать производительность обученной CNN своевременно и с меньшими затратами.

Deep Image Prior

Дмитрий Ульянов, Андреа Ведальди, Виктор Лемпицкий (2018)

В статье предлагается сеть декодеров в качестве приоритетной для задач визуализации. Интересно, что авторы показывают, что генераторная сеть подходит для сбора большого количества низкоуровневой статистики изображений до начала обучения. В частности, в этом подходе нейронная сеть интерпретируется как параметризация изображения. Показано, что подбора весов к одному визуально ухудшенному изображению достаточно для получения достаточно богатой сети (представления изображения), которая может служить универсальным инструментом для таких задач, как шумоподавление, восстановление изображения и т. Д., С использованием изученного априорного значения в качестве индикатора регуляризатора. функция, т.е. индикаторная функция изображений, которая может быть произведена из вектора случайного шума глубокой сверточной сетью определенной архитектуры. Авторы также используют этот подход для исследования информационного содержания, сохраняемого на разных уровнях сети, путем создания так называемых естественных прообразов, то есть изображений, которые отображаются в одном и том же скрытом представлении. Интересно, что при использовании предварительного изображения в качестве регуляризатора, предварительное изображение, полученное даже из очень глубоких слоев, по-прежнему захватывает большой объем информации.

Преодоление разрыва между теорией и применением

В дополнение к широкому спектру академических и технических исследований, представленных на конференции, промышленная выставка в этом году также продемонстрировала значительный рост. Наряду с исследованием несколько компаний продемонстрировали свои новейшие промышленные инновации; от беспилотных автомобилей и робототехники до множества других решений, использующих машинное обучение, трехмерное зрение, виртуальную реальность, видеоаналитику и многое другое. Благодаря постоянному росту и успеху в преодолении разрыва между теорией и применением CVPR продолжает расширять границы компьютерного зрения.