Сегодня мы продолжаем нашу серию статей о недавней конференции CVPR (Computer Vision and Pattern Recognition), ведущей конференции в мире по компьютерному зрению. Neuromation успешно участвовала в воркшопе DeepGlobe, и сейчас мы смотрим доклады с основной конференции. В первой части нашего обзора CVPR мы кратко рассмотрели наиболее интересные статьи, посвященные генеративным состязательным сетям (GAN) для компьютерного зрения. На этот раз мы углубимся в работы, которые применяют компьютерное зрение к нам, людям: отслеживают человеческие тела и другие объекты в видеороликах, оценивают позы и даже полные трехмерные формы тела и так далее. Опять же, статьи не расположены в определенном порядке, а наши обзоры очень краткие, поэтому мы определенно рекомендуем прочитать статьи полностью.

Человеческое прикосновение: идентификация человека, отслеживание и оценка позы

Люди очень хорошо умеют узнавать и идентифицировать других людей, гораздо лучше, чем узнавать другие объекты. В частности, есть особая часть мозга, называемая веретенообразная извилина, которая, как полагают, содержит нейроны, отвечающие за распознавание лиц, и эти нейроны, как полагают, выполняют свою работу немного иначе, чем нейроны, которые распознают другие вещи. Отсюда и те иллюзии насчет перевернутых лиц (эффект Тэтчер), и даже есть особое когнитивное расстройство, прозопагнозия, когда человек теряет способность узнавать человеческие лица ... но все еще прекрасно распознает таблицы , стулья, кошки или английские буквы. Конечно, это не так хорошо изучено, и, вероятно, нет никаких конкретных отдельных нейронов лица, но лица определенно разные. И люди в целом (их формы, силуэты, части тела) также занимают особое место в наших сердцах и мозге: основные формы нашего мозга, вероятно, включают треугольники, круги, прямоугольники… и человеческие силуэты.

Распознавание людей является центральной проблемой для людей, так же как и для компьютерного зрения. Еще в 2014 году (очень давно в области глубокого обучения) Facebook заявлял о достижении сверхчеловеческой производительности в распознавании лиц, и, невзирая на современную критику, к настоящему времени мы можем предположить, что распознавание лиц действительно решено очень хорошо. Однако остается еще много задач; например, мы уже писали об оценке возраста и пола и оценке позы для людей. На CVPR 2018 большинство работ, связанных с людьми, были посвящены поиску поз в 3D или отслеживанию людей в видеопотоках, и это именно то, на чем мы сегодня концентрируемся. Для хорошей оценки мы также рассматриваем пару статей об отслеживании объектов, которые не имеют прямого отношения к людям (но в которых люди, безусловно, являются одним из самых интересных субъектов).

Обнаружение и отслеживание: двухэтапное отслеживание с оценкой позы

Р. Гирдхар и др., Обнаружение и отслеживание: эффективная оценка позы в видео

Мы уже писали об сегментации с помощью Mask R-CNN, одном из самых многообещающих подходов к сегментации, появившемся в 2017 году. За последний год появилось несколько расширений и модификаций базовой Mask R-CNN, и это сотрудничество Карнеги Меллон, Facebook и Дартмут представляют другое: авторы предлагают архитектуру 3D Mask R-CNN, которая использует пространственно-временные свертки для извлечения функций и распознавания поз непосредственно на коротких клипах. Затем они переходят к демонстрации того, что двухэтапный алгоритм с 3D-маской R-CNN в качестве первого шага (и двустороннего сопоставления для связывания прогнозов ключевых точек в качестве второго) превосходит современные методы оценки позы и отслеживания человека. Вот архитектура 3D Mask R-CNN, которая наверняка найдет больше приложений в будущем:

Чувствительные к позе вложения для повторной идентификации личности

М. Сакиб Сарфраз и др., Чувствительное к позе вложение для повторной идентификации личности с расширенным перекрестным перерейтингом

Повторная идентификация человека - сложная проблема компьютерного зрения: как показывают приведенные выше примеры, изменения в поле зрения камеры и позы могут сделать эти два изображения совсем не похожими (хотя мы, люди, все равно сразу же определяем, что это один и тот же человек). Эта проблема обычно решается с помощью методов на основе поиска, которые выводят меры близости между изображением запроса и сохраненными изображениями из некоторого пространства для встраивания. Эта работа немецких исследователей предлагает новый способ включения информации об позе непосредственно в вложение, улучшая результаты повторной идентификации. Вот краткое обзорное изображение, но мы предлагаем прочитать статью полностью, чтобы понять, как именно поза добавляется к встраиванию:

3D-позы из одного изображения: построение 3D-сетки из 2D-позы и 2D-силуэта

Г. Павлакос и др., Как научиться оценивать позу и форму человека в 3D на основе одноцветного изображения

Оценка позы - это хорошо известная проблема; мы писали об этом раньше и уже упоминали об этом в этом посте. Однако создание полноценной трехмерной формы человеческого тела - это совсем другое дело. Эта работа представляет очень многообещающий и довольно неожиданный результат: они генерируют трехмерную сетку человеческого тела напрямую через сквозную сверточную архитектуру, которая объединяет оценку позы, сегментацию человеческих силуэтов и создание сетки (см. Рисунок выше). Ключевой вывод здесь основан на использовании SMPL, статистической модели формы тела, которая обеспечивает хорошую априорность формы человеческого тела. В результате с помощью этого подхода удается построить трехмерную сетку человеческого тела из одноцветного изображения! Вот некоторые наглядные результаты, в том числе несколько очень сложных случаев из стандартного набора данных UP-3D:

FlowTrack: просмотр видео с вниманием к отслеживанию корреляции

З. Чжу и др., Сквозное отслеживание корреляции потоков с пространственно-временным вниманием

Дискриминантные корреляционные фильтры (DCF) - это современная техника обучения для отслеживания объектов. Идея состоит в том, чтобы изучить фильтр, то есть преобразование окна изображения, обычно просто свертку, который соответствовал бы объекту, который вы хотите отслеживать, а затем применить его ко всем кадрам в видео. Как это часто бывает с нейронными сетями, DCF - далеко не новая идея, восходящая к основополагающей статье 1980 года, но о них почти забыли до 2010 года; MOSSE tracker начал возрождение, и теперь в моде DCF. Однако классические DCF не используют фактический видеопоток и обрабатывают каждый кадр отдельно. В этой работе китайские исследователи представляют архитектуру, которая включает в себя пространственно-временной механизм внимания, способный присутствовать в разных временных рамках; они сообщают о значительно улучшенных результатах. Вот общая схема их модели:

Назад к классике: отслеживание корреляции

C.Suni et al., Отслеживание корреляции через совместную дискриминацию и обучение надежности

Эта статья, как и предыдущая, посвящена отслеживанию объектов в видео (сейчас это очень актуальная тема) и, как и предыдущая, использует фильтры корреляции для отслеживания. Но, в отличие от предыдущей, эта статья вообще не использует глубокие нейронные сети! Основная идея здесь состоит в том, чтобы явно включить в модель информацию о надежности, то есть добавить член к целевой функции, который моделирует надежность изученного фильтра. Авторы сообщают о значительно улучшенном отслеживании, а также показывают изученные карты надежности, которые часто выглядят очень правдоподобно:

Вот и все, ребята!

Спасибо за Ваше внимание! Присоединяйтесь к нам в следующий раз - есть еще много интересных статей с CVPR 2018 ... и, в качестве беглого взгляда, крайний срок ICLR 2019 прошел, его представленные документы онлайн, и хотя мы не будем знать, какие из них приняты для еще несколько месяцев мы уже смотрим на них!

Сергей Николенко
Главный научный сотрудник, Neuromation

Алексей Артамонов
Старший научный сотрудник отдела неврологии