Конференция IEEE по компьютерному зрению и распознаванию образов, 2018 г.
Ссылка на все документы
http://openaccess.thecvf.com/CVPR2018.py
Награды за лучшую бумагу
- Taskonomy: распутывание обучения переносу задач
- Total Capture: 3D-модель деформации для отслеживания лиц, рук и тел
- Глубокое изучение сопоставления графов
- SPLATNet: сети с разреженной решеткой для обработки облаков точек
- CodeSLAM — Изучение компактного, оптимизируемого представления для плотного визуального SLAM
- Эффективная оптимизация ранговых функций потерь
Обнаружение объекта
- Многомасштабное представление ядра с учетом местоположения для обнаружения объектов
- Скрытая мини-энтропийная модель для обнаружения слабо контролируемых объектов [code]
- Потеря Ловаса-Софтмакс: удобный суррогат для оптимизации «меры пересечения над объединением в нейронных сетях
- На пути к высокоэффективному обнаружению видеообъектов
- Пулинг с сохранением деталей в глубоких сетях [код]
Обработка GroundTruth
Камера 360° и 3D-видение
- LayoutNet: Реконструкция 3D-плана комнаты из одного изображения RGB (относится к structionsite и камерам 360°)
- GVCNN: сверточные нейронные сети группового просмотра для распознавания трехмерных форм
- Выделение формы, позы и макета из 2D-изображения 3D-сцены
- Тестовый тест действий рук от первого лица с видео RGB-D и 3D-аннотациями поз рук
- Учимся оценивать трехмерную позу и фигуру человека по одному цветному изображению
- PointFusion: Deep Sensor Fusion для оценки ограничивающей рамки 3D
- GVCNN: сверточные нейронные сети группового просмотра для распознавания трехмерных форм
- Выделение формы, позы и макета из 2D-изображения 3D-сцены
- Неконтролируемое обучение монокулярной оценке глубины и визуальной одометрии с реконструкцией глубоких черт
Заметность и внимание на основе
- Рекуррентная сеть с прогрессивным вниманием для обнаружения заметных объектов
- Переход от изображения к видео: повышение значимости изображения с помощью динамического привлечения внимания
- Скажи мне, где искать: сеть управляемого вывода внимания
- LEGO: Изучайте геометрию одновременно, просматривая видео
Повторная идентификация личности
- Передача данных по GAN для перекрытия разрыва домена для повторной идентификации личности
- Разнообразие регуляризованного пространственно-временного внимания для повторной идентификации человека на основе видео
- Чувствительное к позе встраивание для повторной идентификации человека с расширенным ранжированием по соседству
- Чувствительное к позе встраивание для повторной идентификации человека с расширенным перекрестным ранжированием по соседству
- Повторная идентификация транспортного средства с Приором пространства-времени
- https://zhuanlan.zhihu.com/p/34716633
- Реидентификация личности с помощью каскадных парных сверток
- Многоуровневая факторизационная сеть для повторной идентификации личности
- Attention-Aware Compositional Network для повторной идентификации личности
- Объединение идентификации и контекстного обучения для распознавания личности
- Случайное блуждание с глубоким перетасовыванием групп для повторной идентификации человека
- Передающееся совместное глубокое обучение атрибутов и идентичности для повторной идентификации человека без присмотра
- Гармоничная сеть внимания для повторной идентификации личности
- Эффективная и глубокая повторная идентификация личности с использованием многоуровневого сходства
- Повторная идентификация лица, допускающего передачу позы
- Адаптация стиля камеры для повторной идентификации личности
- Используйте неизвестное постепенно: повторная идентификация человека на основе видео с помощью пошагового обучения
- Сеть сопоставления двойного внимания для повторной идентификации личности на основе контекстно-зависимой последовательности признаков
- Устранение фоновой предвзятости для надежной повторной идентификации личности
- Простая идентификация по лучшим ограничениям: многократная повторная идентификация человека по эталонным ограничениям
- Многократная повторная идентификация пешеходов посредством последовательного принятия решений
- Сквозное глубокое сопоставление продуктов Кронекера для повторной идентификации личности
- Использование транзитивности для изучения моделей ре-идентификации человека с ограниченным бюджетом
- Глубокая реконструкция пространственных признаков для частичной повторной идентификации человека: подход без выравнивания
- Групповое последовательное обучение сходству с помощью Deep CRF для повторной идентификации личности
Распознавание активности:
- MiCT: смешанная 3D/2D сверточная трубка для распознавания действий человека
- Мгновенные облака: распознавание человеческой деятельности по неструктурированным характерным точкам
- Совместное обучение детекторов объекта и действия
- Функция управления оптическим потоком: быстрое и надежное представление движения для распознавания действий в видео [code]
- Нелинейные представления временного подпространства для распознавания деятельности
- Неконтролируемое изучение оптического потока с учетом окклюзии
- Оценка 2D/3D позы и распознавание действий с использованием многозадачного глубокого обучения
- Изучение скрытых суперсобытий для обнаружения нескольких действий в видео
- Временные галлюцинации для распознавания действий с помощью нескольких неподвижных изображений
- Когда ты будешь делать что? — Предвосхищение временных проявлений деятельности
- Геометрически управляемые сверточные нейронные сети для самоконтролируемого обучения видеопредставлению
- Наборы действий: слабо контролируемая сегментация действий без ограничений порядка
- Пристальный взгляд на пространственно-временные свертки для распознавания действий
- Распознавайте действия, выделяя компоненты динамики
- Слабо контролируемая локализация действий с помощью разреженной временной сети объединения
- PoseFlow: представление Deep Motion для понимания человеческого поведения в видео
- PoTion: представление движения в позе для распознавания действий
- Что мы узнали из глубоких репрезентаций для распознавания действий?
- Обнаружение и распознавание взаимодействия человека с объектом
- PWC-Net: CNN для оптического потока с использованием пирамиды, деформации и стоимостного объема
- LiteFlowNet: легкая сверточная нейронная сеть для оценки оптических потоков [code]
- На пути к универсальному представлению для распознавания невидимых действий
Движение и отслеживание:
- Контекстно-зависимое глубокое сжатие признаков для высокоскоростного визуального отслеживания
- Сквозное отслеживание корреляции потоков с пространственно-временным вниманием
- Лучшее из двух миров: сочетание CNN и геометрических ограничений для иерархической сегментации движения
- Контекстно-зависимое глубокое сжатие признаков для высокоскоростного визуального отслеживания
- Распределяемое согласованное сопоставление нескольких объектов
- Функции многоцелевого многокамерного отслеживания и повторной идентификации [код]
- Изучение пространственных регрессий для визуального отслеживания
Видео Понимание
- Сквозное обучение представлению движения для понимания видео [код]
- Сквозные плотные субтитры к видео с Masked Transformer
- Наложение субтитров на видео с помощью иерархического обучения с подкреплением
- Выделение актера и боевика из предложения
- Мелкие видео субтитры для спортивного повествования
- Сегментация действий со слабым наблюдением с итеративным заданием мягких границ
- Временные деформируемые остаточные сети для сегментации действий в видео
- Посещайте и взаимодействуйте: взаимодействие с объектами более высокого порядка для понимания видео
- Интерпретируемые субтитры к видео с помощью локализации, структурированной по траектории
- Ссылающиеся отношения [код]
- Двунаправленное внимательное слияние с определением контекста для плотных субтитров к видео [код]
- Что делает видео видео: анализ временной информации в видео, понимание моделей и наборов данных
- NeuralNetwork-Viterbi: платформа для слабо контролируемого видеообучения [code]
- HSA-RNN: адаптивная RNN с иерархической структурой для суммирования видео
- Обобщение видео с учетом точки зрения
- Совместная локализация и описание событий для плотного видеосубтитров
- M3: мультимодальное моделирование памяти для видеотитров
- Нелокальные нейронные сети
- Обучение без учителя и сегментация сложных действий из видео
- Глубокие пространственно-временные случайные поля для эффективной сегментации видео
Сегментация
- Учимся сегментировать все
- Семантическая сегментация со слабым наблюдением путем итеративного анализа общих признаков объекта
Оценка позы
- Обнаружение и отслеживание: эффективная оценка позы в видео [код]
- Слабый и частично контролируемый анализ частей человеческого тела с помощью передачи знаний с помощью позы [ код ]
- Учимся оценивать трехмерную позу и фигуру человека по одному цветному изображению
- Сквозное восстановление формы и позы человека
- DensePose: оценка плотной позы человека в дикой природе
Полу/Слабо контролируемое/неконтролируемое обучение
Лицо
- Поиск крошечных лиц в дикой природе с помощью GAN
- Парный циклGAN
GAN
- Генерация изображения из графов сцен
- AttnGAN: мелкозернистая генерация текста в изображение с помощью состязательных сетей, генерирующих внимание
- MoCoGAN: разделение движения и контента для создания видео
- Социальная ГАН: социально приемлемые траектории с генеративно-состязательными сетями
VQA
- Обучение, задавая вопросы, Ишан Мишра и др.
Наборы данных
- AVA: набор видеоданных пространственно-временно локализованных атомарных визуальных действий
- DOTA: КРУПНОМАСШТАБНЫЙ НАБОР ДАННЫХ ДЛЯ ОБНАРУЖЕНИЯ ОБЪЕКТОВ НА АЭРОИЗОБРАЖЕНИЯХ
- MSMT17: https://arxiv.org/pdf/1711.08565.pdf
- COCO-Stuff: классы вещей и материалов в контексте
- WILDTRACK: многокамерный набор данных HD для плотного обнаружения пешеходов без сценария
Может быть интересно
- "Кто выпустил собак? Моделирование поведения собаки на основе визуальных данных»