Часть 0: Постановка проблемы и введение

Существует множество реальных применений для оценки глубины, имеющих практическое значение в робототехнике, компьютерном зрении и иммерсивных дисплеях (см. Рисунок выше). Мы будем рассматривать оценку глубины как проблему с несколькими изображениями. Проблемы с несколькими представлениями (или изображениями) охватывают разные области проблем. Например,

  1. Стерео видение
  2. Структура из движения
  3. Оптический поток

Хотя каждый из них имеет большое значение для решения проблем виртуальной реальности (VR), робототехники и компьютерного зрения в целом, в этой серии, состоящей из нескольких частей, мы сосредоточимся на (1) стереозрении. В частности, прогресс глубокого обучения в технологии стереозрения.

Искусственные нейронные сети имеют долгую историю в области компьютерного зрения, обеспечивая мощную основу для обнаружения и классификации объектов. Совсем недавно глубокое обучение произвело революцию в этой области, предоставив более глубокое представление изображений, которые изучает сеть. Ключевые компоненты этого недавнего успеха включают упрощенную сетевую архитектуру, которая имеет больше параметров и меньше правил, а также новые методы обучения, такие как выпадение [3] и регуляризация L2 [4].

Прежде чем перейти к конкретным решениям глубокого обучения, давайте сначала мотивируем проблему и обосновываем, почему пары стереоизображений используются для оценки глубины.

3D-реконструкция из 2D-сигнала

Как мы можем автоматически вычислять 3D-геометрию из изображений? Какие подсказки на изображении предоставляют трехмерную информацию? Прежде чем смотреть в бинокль (например, стерео или два), давайте рассмотрим какой-нибудь отдельный вид (также известный как характеристики монокуляра).

Что ж, мы, люди, поступаем так естественно. Вот несколько подсказок, которые мы используем, чтобы получить информацию о глубине:

  • Затенение

  • Текстура

  • Фокус

  • Движение

  • Перспектива

  • Окклюзия

  • Другие:

- Световые блики
- Тени
- Силуэты
- Пересечения
- Симметрия
- Поляризация света
-…

Тем не менее, структура и глубина по своей сути неоднозначны с одной точки зрения. Посмотрим на это визуально.

Изображая неоднозначность, мы видим P1 и P2, если смотреть из оптического центра (т. Е. Положения камеры), которые проецируются на плоскость изображения, поскольку P1 'и P2' эквивалентны.

Проблема стерео

Системы стереовидения ссылаются на знания о двух изображениях, снятых одновременно с пары камер (то есть левой и правой), и с параметрами камеры, как внешними (например, местоположение камеры), так и внутренними (например, фокусное расстояние), которые считаются известными.

Стерео в значительной степени мотивировано биологией (т.е.использованием левого и правого глаза для одновременного захвата визуальной информации).

Классические стереофонические проблемы включают несоответствие (параметры камеры), глубину (оценка расстояния между камерами), окклюзию, автостереограммы, структуру от движения (2D в 3D представления сцен), параллакс движения, создание карты глубины и карты текстуры. Как показано выше, существует несколько способов моделирования проблемы. Например, можно использовать решатель твердого тела для решения уравнений в сферических координатах. Тем не менее, основное внимание в этой серии будет уделяться решениям глубокого обучения (DL).

Таким образом, при наличии левого и правого изображений вышеупомянутая проблема неоднозначности решается посредством триангуляции из двух плоскостей изображения через совпадающие соответствия точки в мировой координате, которая может быть видна на обоих изображениях. Графически выразить:

Основной принцип триангуляции, показанный выше: реконструкция через пересечение двух лучей. Требования: калибровка и точечное соответствие.

Кроме того, используется эпиполярное ограничение, которое сводит проблему соответствия к одномерному поиску по сопряженным эпиполярным линиям. Показано на следующей схеме.

Таким образом, эпильполярное ограничение предполагает, что стереопары являются выпрямленными изображениями, что означает, что одна и та же эпиполярная плоскость (как показано выше) выровнена по строкам так, что она ортогональна обоим и выровнена друг с другом [1]. Исправление достигается путем обучения преобразованию, основанному на внутренних и внешних параметрах: процесс, начавшийся несколько десятилетий.

Из пары исправленных изображений глубина Z может быть определена по ее обратно пропорциональной зависимости от несоответствия d, где несоответствие определяется как разность пикселей по горизонтали при сравнении соответствий. слева и справа, т. е. I (x, y) = D (x + d, y).

Отношения легче всего уловить визуально.

Если точка в левой плоскости изображения P_L (x, y) проецируется в мировых координатах (X, Y, Z) как точка в 3D-сцене, наша цель - восстановить недостающую Z (глубину) при наличии стереопары.

Вместе с соответствием в правой плоскости изображения.

Мы устанавливаем относительные мировые координаты (красная ось) вместе с известной базовой линией b между двумя центрами камеры:

Мы получили

Что можно выразить как

Поколения систем стереозрения

Стереовидение было проблемой, вызывающей интерес в исследовательском сообществе на протяжении многих-многих лет. В настоящее время можно охарактеризовать разные методы как одно из трех поколений.

Что касается этой серии статей по DL для оценки карты диспаратности, мы можем охарактеризовать методы как один из следующих.

Чтобы система была сквозной (2), должна выполняться следующая схема.

Как мы увидим в последующих частях, черный (ну, оранжевый) ящик, представляющий сеть DL, может состоять из нескольких субмодулей, часто последовательно соединенных каскадом, так что различные шаги аналогичны обычным шагам, используемым в традиционном стереозрении. системы.

Смотреть вперед

Далее, в части I, мы рассмотрим наборы данных, ресурсы и показатели, используемые для проблем со стереозрением. Это будет продолжением вводной части с конкретными примерами, проблемами и статистикой, с которыми можно столкнуться в общедоступных тестах производительности.

Затем, во второй части, мы рассмотрим MC-CNN как первую попытку использовать глубокое обучение для извлечения более надежных функций [1], а затем продолжим во времени с DispNet [2], GC-Net [3], PSMNet [ 4], iResNet [5] и GA-Net [6].

[1] К. Луп и З. Чжан. Вычислительная коррекция гомографий для стереозрения. IEEE Conf. Компьютерное зрение и распознавание образов, 1999.

[2] Збонтар, Юре, и Ян ЛеКун. «Стерео сопоставление путем обучения сверточной нейронной сети для сравнения участков изображения». Дж. Мах. Учиться. Рез. 17.1 (2016): 2287–2318.

[2] Майер, Николаус и др. «Большой набор данных для обучения сверточных сетей оценке несоответствия, оптического потока и потока сцены». Материалы конференции IEEE по компьютерному зрению и распознаванию образов. 2016 г.

[3] Кендалл, Алекс и др. «Сквозное изучение геометрии и контекста для глубокой стереорегрессии». Материалы Международной конференции IEEE по компьютерному зрению. 2017 г.

[4] Чанг, Цзя-Рен и Юн-Шэн Чен. «Пирамидальная стереосистема согласования». Труды конференции IEEE по компьютерному зрению и распознаванию образов. 2018.

[5] Лян, Чжэнфа и др. «Обучение оценке несоответствия через постоянство признаков». Материалы конференции IEEE по компьютерному зрению и распознаванию образов. 2018.

[6] Чжан, Фейху и др. «Ga-net: Управляемая сеть агрегации для сквозного стерео согласования». Материалы конференции IEEE / CVF по компьютерному зрению и распознаванию образов. 2019.