Итоги ECCV 2018

Это обзор (заметки) Европейской конференции по компьютерному зрению 2018 г., которая проходила 8–14 сентября в Мюнхене. Более 3000 участников. Более 700 плакатов. 3 дня семинаров и 6 дней конференции. Все происходит в великолепном Мюнхене.

Сайт конференции: https://eccv2018.org/

Статьи: http://openaccess.thecvf.com/ECCV2018.py

Основная конференция

Главное мероприятие было очень интенсивным, вскоре стало очевидно, что невозможно сделать и то, и другое: прочитать все плакаты и посетить все устные сессии, поэтому я решил поделиться своими заметками с НЕКОТОРЫХ сессий / докладов, которые я был повезло присутствовать / читать.

10 сентября - понедельник

Сверточные сети с адаптивными вычислительными графами

Андреас Файт, Серж Белонжи

Как заставить CNN пропускать все следующие слои, если изображение полностью описывается особенностями текущего уровня? ConvNet-AIG - решение этой проблемы. Сеть была предложена Андреасом Фейтом и Сержем Белонжи из Корнельского университета. Его полное название - сверточные сети с адаптивными графами вывода, поэтому задача CNN - адаптивно определить собственную топологию в соответствии с входным изображением. Что еще более важно, сеть не только повышает эффективность, но и улучшает результаты классификации. Отметьте эту бумагу.

Преобразование разнообразных изображений в изображения с помощью разрозненных представлений

Синь-Ин Ли, Хун-Ю Цзэн, Цзя-Бинь Хуан, Маниш Сингх, Мин-Сюань Ян

Идея состоит в том, чтобы создать распутанное представление для получения различных результатов без парных обучающих изображений, чтобы решить проблему отсутствия множества выровненных обучающих пар. Для обработки непарных данных обучения авторы ввели потерю согласованности между циклами. Кредит на бумагу.

11 сентября - вторник

Масштабирование эгоцентрического видения: набор данных об электронных кухнях

Дима Дамен, Хейзел Даути, Саня Фидлер, Антонино Фурнари, Эвангелос Казакос, Джованни Фаринелла, Давиде Молтисанти, Джонатан Манро, Тоби Перретт, Уилл Прайс, Майкл Рэй

Представлен новый датасет - Epic-Kitchens. Звуковые (голосовые) аннотированные видео человеческой деятельности на кухне. Основные характеристики: 32 человека (~ кухни), 55 часов записи, 11,5 млн кадров, многоязычное повествование. Создан для распознавания действий, классификации, сегментации, предсказания будущего. Pape r

Повторная идентификация неконтролируемого лица, проведенная ассоциацией Deep Learning Tracklet Association

Миньсянь Ли, Сятянь Чжу, Шаоган Гун

Предлагаемая структура Tracklet Association Unsupervised Deep Learning (TAUDL) совместно изучает маркировку треклетов внутри камеры и корреляцию треклетов между камерами совершенно неконтролируемым образом, без перекрестной попарной маркировки личности человека. Помимо того, что это неконтролируемая модель, она также служит мостом для повторного идентификатора человека и ассоциации треклетов с несколькими камерами. Подробнее в статье.

Предсказание взгляда в эгоцентрическом видео с помощью перехода внимания в зависимости от задачи обучения

Ифэй Хуан, Минцзе Цай, Чжэньцян Ли, Ёити Сато

Новая модель, которая предсказывает взгляд, исследующий закономерности во временном сдвиге. Другими словами, это прогноз перехода внимания. Он должен фиксировать фиксацию и переход движений глаз. Используемые наборы данных состоят из видео с последовательностями действий. Окончательное решение нейронной сети сочетает в себе переход внимания, зависящий от задачи, с прогнозированием значимости снизу вверх. Архитектура описана в этой статье.

Анализ человека на уровне экземпляра через сеть группирования частей

Кэ Гун, Сяодан Лян, Ичэн Ли, Иминь Чен, Мин Ян, Лян Линь

Задача - разложение человека на смысловую моду / элементы тела. Предлагаемая сеть группирования частей выполняет группировку пикселей на уровне частей (семантическую сегментацию частей) и в то же время производит группировку частей на уровне экземпляра (обнаружение границ с учетом экземпляра). Авторы также собрали новый набор данных синтаксического анализа с участием нескольких лиц (CIHP) с 3,4 экземплярами на изображение, примерно 38 000 изображений и 20 категорий. Бумагу можно найти здесь. На изображении ниже показано изображение сети группирования частей (PGN).

12 сентября - среда

PlaneMatch: прогноз копланарности участка для надежной регистрации RGB-D

Ифэй Ши, Кай Сюй, Матиас Нисснер, Шимон Русинкевич, Томас Фанкхаузер

Предлагаемый метод представляет собой дескриптор патча RGB-D для реконструкции RGB-D. Вопрос - как найти замыкание цикла (замыкание цикла - ›Дескриптор функции для получения функций) Можно ли извлечь из дескриптора что-то еще, кроме ключевых точек? Сопоставление плоских элементов - это основная идея статьи: добавление ограничений для выполнения сопоставления копланарности. Использование Siamese Network для функций RGB, глубины, нормалей, патч-маски. Оценка проведена на новом тесте компланарности, созданном авторами на основе стандартных изображений RGB-D. Вывод: эффективное обучение функциям с использованием самоконтроля, интеграция с надежной оптимизацией в SLAM.

Изображение взято из оригинальной статьи, которую можно найти здесь.

Active Stereo Net: сквозное самообучение для активных стереосистем

Инда Чжан, Шон Фанелло, Самех Хамис, Кристоф Риманн, Жюльен Валентин, Адарш Коудл, Владимир Танкович, Шахрам Изади, Томас Фанкхаузер

Пассивное определение глубины. Решение - Активная стереосистема - сквозная система, создающая несоответствие. Вклад: улучшение фотометрических потерь путем выполнения следующих шагов: 1) удаление ненужной зависимости, 2) удаление необъяснимой области (на основе петли), 3) удаление плохих локальных оптимумов (агрегация окна с ASW). Предлагаемая архитектура представляет собой самостоятельное обучение для активных стереосистем. Изображение взято из бумаги.

GAL: потеря геометрического состязания при реконструкции трехмерных объектов с одним ракурсом

Бо Ян, Стефано Роса, Эндрю Маркхэм, Ники Тригони, Хонгкай Вэнь

Тема - Реконструкция объектов в 3D модели. Вклад: геометрические состязательные потери с учетом глобальных геометрических ограничений. Использование многовидовых геометрических потерь: 1) проекция из 3D в 2D, 2) обратите внимание на геометрическую согласованность, 3) найдите несколько разрешений (высокое и низкое), два режима (высокое / низкое) имеют разные функции потерь, поэтому окончательная потеря сумма обоих потерь, 4) использовать предварительно обученную сеть для извлечения двухмерных функций.

Архитектура обучения: ввод 2.5D-представление → сеть кодировщик-декодер → повышающая дискретизация → конкатенация с трехмерной формой → реконструкция → условный дискриминатор → потеря. Подробнее здесь.

Глубокая виртуальная стереодометрия: прогнозирование глубокой глубины для прямой разреженной одометрии в монокуляре

Нан Ян, Руи Ван, Йорг Штюклер, Даниэль Кремерс

Полуавтоматическая оценка глубины с помощью монокуляра. Предлагаемые архитектуры: StackNet = Simplenet → ResidualNet → dispair_map_left, dispair_map_right и новая система одометрии Deep Virtual Stereo Odometry (DVSO). Некоторые результаты из бумаги:

Неконтролируемое представление геометрии для оценки позы человека в 3D

Хельге Роден, Матье Зальцманн, Паскаль Фуа

Задача - создать неконтролируемый подход для оценки позы человека. Подход - вращение трехмерных объектов (кодирование изображения в геометрическое кодирование для получения облака точек) а) изучение представления с учетом геометрии с использованием немаркированных изображений → полу-контролируемый подход к изучению сопоставления из этого представления в трехмерные позы (б) соответствует скрытому представлению в сеть, чтобы вычислить позу. Более подробная информация в газете.

Оценка позы руки с учетом окклюзии с использованием иерархической сети плотности смеси

Ци Е, Тэ-Гюн Ким

Основная задача - узнать и спрогнозировать параметры позы трехмерной модели руки. Предлагаемая архитектура: HMDN, цель - использовать CNN для изучения параметров позы. Поскольку метки представляют собой местоположения суставов рук, входное изображение моделируется в виде двухуровневой иерархии: 1) видимость моделируется распределением Бернулли, затем в зависимости от видимости местоположения суставов моделируются либо 2) одномодальным распределением Гаусса, либо 2) GMM. Применение: для генерации гипотез для методов на основе моделей, нескольких точек зрения, отслеживания, взаимодействия руки и объекта. Модель полностью описана в бумаге.

GANimation: анатомическая анимация лица из одного изображения

Альберт Пумарола, Антонио Агудо, Алейш Мартинес, Альберто Санфелиу, Франческ Морено

Задача - Генерация непрерывных, НЕ дискретных категориальных выражений. Характеристики: непрерывный рендер экспрессии, человек не виден при обучении, анимация из одного изображения, самообучение лица, не требуется 3D-модель лица, нет необходимости в инициализации, неконтролируемый метод. Первым компонентом метода является создание непрерывного анатомически ориентированного представления (условного представления). Второй компонент - самообучающееся внимание к лицу: сгенерируйте изображение как комбинацию идентификатора исходного изображения и предполагаемой дельты RGB, и это неконтролируемая часть. Во время обучения происходит несколько потерь: потеря изображения, потеря идентичности, потеря внимания, потеря условного выражения. Результаты просто потрясающие! Доступны Бумага и код.

Высокоэкономичное двоичное сжатие с несколькими представлениями для масштабируемой кластеризации изображений

Чжэн Чжан, Ли Лю, Цзе Цинь, Фань Чжу, Фумин Шэнь, Юн Сюй, Лин Шао, Хэн Тао Шэнь

Задача - разделить входные изображения на возможные подмножества, выходные - центроиды кластера и индикаторы. Ключевые факторы в MVIC: несколько функций на изображение, мера сходства, алгоритм. Ограничения: дополнительные свойства, двухфазная стратегия, большие данные, сложность. Мотивация - как снизить вычислительную сложность и сэкономить нагрузку на память при ограниченных вычислительных ресурсах. Подход включает общее двоичное представление и дискретную кластерную структуру (двоичные центроиды, дискретные индикаторы). Причины, по которым предложенный алгоритм превосходит другие: эффективная дискретная оптимизация (уменьшение избыточности, устранение шума), двоичные функции, совместная структура обучения. Код хранится здесь.

Асинхронное фотометрическое отслеживание объектов с использованием событий и кадров

Даниэль Гериг, Анри Ребек, Гильермо Гальего, Давиде Скарамуцца

Камера событий не запускает события и сохраняет разрешение без размытия изображения. Традиционные алгоритмы не применимы, так как события являются асинхронными . Примеры применения: SLAM на основе событий, автономный полет дронов при слабом освещении. Согласно презентации, цель состоит в том, чтобы отслеживать особенности в простое время между двумя кадрами с помощью событий. Таким образом, этот подход фокусируется на извлечении функций и отслеживании их с помощью событий, он учитывает статический внешний вид из фреймов и силу краев. Вклад: 1) асинхронное отслеживание с малой задержкой 2) подход максимального правдоподобия с моделью генерации событий 3) совместная оценка деформации признаков и оптического потока. Более подробную информацию можно найти в статье.

13 сентября - четверг

Изучение SO (3) эквивалентных представлений со сферическими CNN

Карлос Эстевес, Кристин Аллен-Бланшетт, Амиш Макадиа, Костас Даниилидис

Задача, которую решает предлагаемая сеть, - это обработка трехмерных вращений в задачах трехмерной классификации. Используя многозначные сферические функции, авторы создают новую сферическую сверточную сеть, которая реализует точные свертки на сфере. Они утверждают, что эквивариантность SO (3), хорошая производительность и масштабируемость достигаются именно с помощью этих сферических сверток, а также параметризации спектрального фильтра и спектральной гладкости (для обеспечения локализации). Кроме того, в статье описывается новый слой объединения в спектральной области. Подробнее здесь. Также доступен Код. Изображение показывает этапы этого метода.

CornerNet: обнаружение объектов как парных ключевых точек

Хэй Ло, Цзя Дэн

Используя одну CNN, авторы предлагают новый подход к обнаружению ограничивающего прямоугольника объекта в виде пары ключевых точек, верхнего левого угла и нижнего правого угла. Сеть состоит из двух модулей прогнозирования: 1) для левых верхних углов, 2) для правых нижних углов. Становится возможным находить и группировать углы, имея прогнозы от обоих модулей. Кроме того, применяется новый метод - объединение углов, чтобы помочь лучше локализовать углы. Архитектура показана на изображении ниже. Результаты и реализация полностью описаны в статье.

Мастер-классы / Учебники

Всего было три дня на 56 семинаров. При этом параллельно проходило около 10 мастер-классов, а это очень много! Определенно сложно выбрать, на что пойти. Однако тематика была довольно разнообразной, поэтому каждый мог найти что-то интересное и конкретное. Далее я описываю те, которые посещал.

UltraFast 3D-зондирование, реконструкция и понимание людей, объектов и окружающей среды (от Google AI)

Учебное пособие включало в себя целый набор трехмерных захватов, реконструкции и понимания, начиная с датчиков глубины, последующей реконструкции мира, параметрического отслеживания, нежесткой реконструкции и заканчивая сжатием и рендерингом. Подробнее здесь.

2-й семинар по пониманию крупномасштабного видео на YouTube-8M

Представляем победившие решения для конкурса Kaggle в наборе данных YouTube-8M. Тем не менее, некоторые приглашенные доклады также были частью семинара.

Во время выступления Распознавание действий человека и набор данных кинетики Эндрю Зиссерман (Оксфордский университет и DeepMind) представил набор данных Кинетика, который стремится стать ImageNet для распознавания действий человека. Основная идея состоит в том, чтобы иметь возможность использовать этот набор данных для сравнения различных архитектур для классификации видео действий.

Рене Видал (Университет Джона Хопкинса) рассказал о применении систем обнаружения действия к медицинским изображениям, особенно в области хирургии. Можно использовать машинное обучение для роботизированной минимально инвазивной хирургии (RMIS), чтобы классифицировать и сегментировать действия на кадрах. Это также помогает оценивать действия, например, оценивать уровень владения навыками медицинского стажера. Подробнее

BioImage Computing

ML в гематологии Рене Видаль (Университет Джона Хопкинса) Задача -классификация клеток на гранулоциты, лимфоциты Категории моноцитов. У изображений без линз нет линз, это небольшие устройства для анализа крови. Их плюсы по сравнению с традиционной микроскопией: минимальные требования к оборудованию, дешевизна, широкое поле зрения и автоматическая фокусировка, а минусы - низкое качество реконструкции и низкое разрешение. Реконструкция крови выполняется для получения сегментированного (клеточного / фонового) изображения. Для классификации меток нет. Вклад представленной статьи - вероятностная модель для обнаружения и классификации нескольких объектов наряду со слабо контролируемым обучением без ограничивающих рамок для каждого объекта. В результате модель обеспечивает эффективный способ обнаружения, подсчета и классификации огромных популяций клеток. Приведенное ниже изображение взято из оригинальной статьи, которая была принята на CVPR2018.

Интересные Плакаты

Поскольку меня интересуют такие области, как компьютерное зрение + NLP, биоимиджинг и использование машинного обучения в здравоохранении, я перечисляю несколько статей, связанных с этими темы и были представлены во время конференции. Все изображения взяты из газет.

TextSnake: гибкое представление для обнаружения текста произвольной формы

Атрибуты как операторы: факторизация невидимых композиций атрибут-объект

Начать, следовать, читать: сквозное распознавание рукописного ввода на всю страницу

Поиск и фокус: извлечение и локализация видеособытий с помощью запросов на естественном языке

Раскрашивание словами: руководство по раскрашиванию изображения посредством создания текстовой палитры

Приоры формы K-выпуклости для сегментации

Заключение

Вот и все, спасибо, что прочитали :) Надеюсь, эти заметки были вам полезны. С нетерпением жду ECCV2020.