Делайте крутые вещи с данными!

Конференция IEEE 2019 года по компьютерному зрению и распознаванию образов (CVPR) проходила в этом году с 16 по 20 июня. CVPR входит в тройку лучших научных конференций в мире в области компьютерного зрения (наряду с ICCV и ECCV). Всего в этом году было принято 1300 работ из рекордно высокого уровня 5165 представлений (25,2% принятых).

CVPR привлекает лучшие умы в области компьютерного зрения, и каждый год появляется много очень впечатляющих статей.

Я взял принятые статьи из CVPR и провел анализ, чтобы понять основные области исследований и общие ключевые слова в названиях статей. Это может дать представление о том, куда продвигается исследование.

Исходные данные и код доступны на моем Github. Не стесняйтесь тянуть это и добавлять к нему свой собственный поворот.

CVPR присваивает каждой статье основную предметную область. Распределение принятых работ по тематическим областям ниже:

Неудивительно, что большая часть исследований сосредоточена на глубоком обучении (это еще не все глубокое обучение!), Обнаружении и категоризации, а также на лицах / жестах / позе. Эта разбивка носит общий характер и не дает точных сведений. Итак, затем я извлек все слова из принятой бумаги и использовал счетчик, чтобы подсчитать их частоту. Ниже приведены 25 самых распространенных ключевых слов:

Теперь это поинтереснее. Самыми популярными областями исследований были обнаружение, сегментация, 3D и обучение состязательности. Это также показывает рост исследований в области методов обучения без учителя.

Наконец, я также нарисовал Облако слов.

Вы можете использовать мой Github, чтобы получать самые популярные статьи по темам, как показано ниже.

Я веду консультацию по машинному обучению. Посетите наш сайт здесь. Я люблю работать над проектами компьютерного зрения. Не стесняйтесь обращаться через веб-сайт или по электронной почте [email protected], если у вас есть идея, над которой мы можем сотрудничать.

Далее в блоге я выбрал 5 интересных статей по ключевым направлениям исследований. Обратите внимание, что я выбрал избранные статьи, которые мне больше всего понравились.

  1. Изучение глубины перемещения людей, наблюдая за замерзшими людьми

Человеческая зрительная система обладает замечательной способностью понимать наш трехмерный мир из его двухмерной проекции. Даже в сложных средах с несколькими движущимися объектами люди могут поддерживать возможную интерпретацию геометрии объектов и упорядочения по глубине. За последние несколько лет была проделана большая работа по оценке глубины с использованием изображений с камеры, но во многих случаях надежная реконструкция остается сложной задачей. Особенно сложный случай возникает, когда и камера, и объекты в сцене свободно перемещаются. Это сбивает с толку традиционные алгоритмы трехмерной реконструкции, основанные на триангуляции.

Чтобы узнать больше о глубинных изображениях и оценке глубины сцены, посетите этот блог.

В данной статье эта проблема решается путем построения модели глубокого обучения на сцене, в которой камера и объект свободно перемещаются. См. Гифку ниже:

Для создания такой модели нам нужны видеопоследовательности естественных сцен, снятых движущейся камерой, а также точная карта глубины для каждого изображения. Создание такого набора данных было бы сложной задачей. Чтобы преодолеть это, газета очень новаторски использует существующий набор данных - видеоролики YouTube, в которых люди имитируют манекены, останавливаясь в самых разнообразных естественных позах, в то время как ручная камера путешествует по сцене. Поскольку сцена неподвижна и движется только камера, точные карты глубины могут быть построены с использованием методов триангуляции. Эта статья - очень интересное чтение. Он решает сложную проблему и очень творчески подходит к созданию набора данных для нее.

Производительность обученной модели на видеоклипах в Интернете с движущимися камерами и людьми намного лучше, чем в любом другом предыдущем исследовании. См. ниже:

Вы можете прочитать текст статьи здесь.

2. BubbleNets: обучение выбору навигационной рамки при сегментации видеообъектов с помощью глубокой сортировки кадров

Я видел несколько работ по сегментации видеообъектов (VOS). Это задача сегментирования объекта в видео с единственной аннотацией в первом кадре. Это находит применение в понимании видео, и за последний год было проведено множество исследований.

Расположение и внешний вид объектов на видео могут значительно меняться от кадра к кадру, и в документе делается вывод, что использование разных кадров для аннотации резко меняет производительность, как показано ниже.

BubbleNets итеративно сравнивает и меняет местами соседние видеокадры до тех пор, пока кадр с наибольшей прогнозируемой производительностью не получит наивысшего ранга, после чего пользователь выбирает его для аннотирования и использования для сегментации видеообъектов.

Видео-описание модели размещено на youtube, а исходный код открыт на Github.

Модель BubbleNets используется для прогнозирования относительной разницы в производительности между двумя кадрами. Относительные характеристики измеряются сочетанием сходства областей и точности контура.

В качестве входных данных требуется 2 кадра для сравнения и 3 опорных кадра. Затем он передает их через ResNet50 и полностью подключенные слои для вывода единственного числа f, обозначающего сравнение двух кадров. Чтобы выполнить пузырьковую сортировку, мы начинаем с первых двух кадров и сравниваем их. Если BubbleNet предсказывает, что кадр 1 имеет лучшую производительность, чем кадр 2, то порядок кадров меняется, и следующий кадр сравнивается с лучшим кадром на данный момент. По окончании обработки всей видеопоследовательности остается лучший кадр. На рисунке ниже показана архитектура пузырьковых сетей и процесс пузырьковой сортировки.

В целом авторы показывают, что изменение способа выбора фрейма аннотации без изменения базового алгоритма сегментации приводит к увеличению производительности на наборе данных теста DAVIS на 11%.

3. Трехмерная оценка формы руки и позы по одному изображению RGB

В последнее время очень активно ведутся исследования 3D-формы руки и оценки позы. Это имеет приложения в виртуальной реальности и робототехнике. В этой статье используется монокулярное изображение RGB для создания трехмерной позы руки и трехмерной сетки вокруг руки, как показано ниже.

В статье используются CNN-сети Graph для восстановления полной трехмерной сетки руки. Здесь - хорошее введение в тему Graph CNN. Для обучения сети авторы создали крупномасштабный синтетический набор данных, содержащий как наземные трехмерные сетки, так и трехмерные позы. Аннотирование реальных трехмерных ручных сеток вручную на реальных изображениях RGB чрезвычайно трудоемко и требует много времени. Однако модели, обученные на синтетическом наборе данных, обычно дают неудовлетворительные результаты оценки на реальных наборах данных из-за разрыва между ними в предметной области. Чтобы решить эту проблему, авторы предлагают новый метод со слабым контролем, используя карту глубины в качестве слабого контроля для создания трехмерной сетки, поскольку карта глубины может быть легко захвачена камерой RGB-D при сборе данных обучения в реальном мире. В документе содержится подробная информация о наборе данных, процессе обучения и т. Д. Прочтите его, если эта область вас интересует.

Одним из интересных моментов для меня стала архитектура Graph CNN, используемая для генерации сетки. Входом в эту сеть является скрытый вектор из изображения RGB. Он проходит через 2 полностью связанных слоя для вывода объектов размером 80x64 в виде грубой диаграммы. Затем он проходит через уровни передискретизации и графических CNN для вывода более богатых деталей, что приводит к окончательному результату в 1280 вершин.

4. Reasoning-RCNN: Объединение адаптивного глобального мышления в обнаружение крупномасштабных объектов

Обнаружение объектов приобрело большую популярность во многих распространенных приложениях компьютерного зрения. Faster RCNN - это популярная модель обнаружения объектов, которая часто используется. Чтобы узнать больше об обнаружении объектов и Faster RCNN, загляните в этот блог. Однако обнаружение объектов наиболее успешно, когда количество классов обнаружения невелико - менее 100. В этой статье рассматривается проблема обнаружения крупномасштабных объектов с тысячами категорий, которая создает серьезные проблемы из-за распределений данных с длинным хвостом, сильных окклюзий и классов двусмысленность.

Reasoning-RCNN делает это путем построения графа знаний, который кодирует здравые человеческие знания. Что такое сеть знаний? Граф знаний кодирует информацию между объектами, такую ​​как пространственные отношения (на, рядом), отношения субъект-глагол-объект (например, вождение, бег), а также сходства атрибутов, такие как цвет, размер, материал. Как показано ниже, категории, визуально связанные друг с другом, ближе друг к другу.

С точки зрения архитектуры, он устанавливает структуру Reasoning поверх стандартного детектора объектов, такого как Faster RCNN. Веса предыдущего классификатора собираются для создания глобального семантического пула по всем категориям, который подается в модуль адаптивного глобального рассуждения. Контексты расширенных категорий (то есть выходные данные модуля рассуждений) сопоставляются обратно с предложениями регионов с помощью механизма мягкого сопоставления. Наконец, расширенные функции каждого региона используются для сквозного повышения производительности как классификации, так и локализации. На схеме ниже показана архитектура модели. Пожалуйста, обратитесь к статье, чтобы получить более подробное представление об их архитектуре.

Модель обучается и оценивается на 3 основных наборах данных - Visual Gnome (3000 категорий), ADE (445 категорий) и COCO (80 категорий). Модель может получить улучшение на 16% на Visual Gnome, на 37% на ADE и на 15% улучшение на COCO по баллам MAP.

Код обучения будет открыт по этой ссылке. Пока недоступно.

5. Глубокое обучение для защиты от спуфинга Zero Shot Face

За последние несколько лет в области обнаружения лиц был достигнут большой прогресс, и теперь системы обнаружения и распознавания лиц широко используются во многих приложениях. Фактически можно построить систему, которая обнаруживает лица, распознает их и понимает их эмоции с помощью 8 строк кода. Смотрите блог здесь.

Однако существует также постоянный риск подделки распознавания лиц для получения незаконного доступа. Анти-спуфинг лиц предназначен для предотвращения того, чтобы системы распознавания лиц распознавали поддельные лица как настоящих пользователей. В то время как разрабатываются передовые методы защиты от спуфинга, создаются и новые типы спуфинговых атак, которые становятся угрозой для всех существующих систем. В этой статье представлена ​​концепция обнаружения неизвестных спуфинговых атак как Zero-Shot Face Anti-spoofing (ZSFA). Предыдущие работы ZSFA изучали только 1-2 типа атак спуфинга, таких как печать / воспроизведение, что ограничивает понимание этой проблемы. В этой работе исследуется проблема ZSFA в широком диапазоне 13 типов атак с подделкой, включая печать, воспроизведение, 3D-маску и т. Д. На изображении ниже показаны различные типы атак спуфинга.

Подмена лица может включать в себя различные формы, такие как печать (печать фотографии лица), воспроизведение видео, 3D-маска, фотография лица с вырезом для глаз, макияж, прозрачная маска и т.д. изображения в неконтролируемой форме. Вложения здесь могут моделировать такие вещи, как человеческий взгляд. Он создает набор данных поддельных изображений, чтобы изучить эти вложения. Во время тестирования неизвестные атаки проецируются на встраивание, чтобы найти наиболее близкие атрибуты для обнаружения спуфинга.

Прочтите статью для получения более подробной информации об архитектуре модели для сети с глубоким деревом и процессе ее обучения. Бумага способна создавать вложения, которые отделяют живое лицо (True Face) с различными типами подделок. См. График t-SNE ниже

Эта статья была потрясающей. Перспективное исследование для решения практической проблемы.

Заключение

Приятно видеть все последние исследования в области компьютерного зрения. 5 опубликованных здесь статей - это лишь верхушка айсберга. Надеюсь, вы воспользуетесь моим Github, чтобы отсортировать статьи и выбрать те, которые вам интересны.

Я очень увлечен компьютерным зрением и глубоким обучением в целом. У меня есть собственный консультант по глубокому обучению, и я люблю работать над интересными проблемами. Я помог многим стартапам внедрить инновационные решения на основе ИИ. Заходите к нам на - http://deeplearninganalytics.org/.

Вы также можете увидеть другие мои работы по адресу: https://medium.com/@priya.dwivedi

Если у вас есть проект, над которым мы можем сотрудничать, свяжитесь со мной через мой веб-сайт или по адресу [email protected].

Ссылки:

  • CVPR
  • Изображения, использованные в блоге, заимствованы из статей.