Конференция CVPR 2018 (компьютерное зрение и распознавание образов) давно закончилась, но мы не можем перестать просматривать ее замечательные статьи; сегодня Часть III пришла! В первой части мы кратко рассмотрели наиболее интересные статьи о GAN для компьютерного зрения от CVPR 2018; во второй части добавили человеческое прикосновение и поговорили об оценке позы и отслеживании для людей. Сегодня мы обратимся к одному из главных фокусов нашего собственного внутреннего исследования в Neuromation: синтетическим данным. Как обычно, статьи не расположены в определенном порядке, а наши обзоры очень краткие, поэтому мы определенно рекомендуем читать статьи полностью.

Синтетические данные: имитируйте, чтобы учиться

Синтетические данные - это данные, которые были созданы искусственно посредством 3D-моделирования и рендеринга (как обычно для компьютерного зрения) или другими способами, а затем использовались для обучения моделей машинного обучения. Синтетические данные - удивительная тема в машинном обучении, и самое удивительное то, как долго ими пренебрегали. Некоторые работы по синтетическим данным можно отнести к 2000-м годам, но до 2016 года они практически не вызывали интереса. Единственная область, в которой он использовался, - это обучение беспилотных автомобилей, где необходимость моделирования среды и невозможность сбора реальных наборов данных объединились и сделали его идеальной ситуацией для синтетических наборов данных.

Сейчас интерес быстро растет: теперь у нас есть набор данных SUNCG смоделированных помещений, внешняя среда для вождения и навигации, набор данных SURREAL синтетических людей для изучения оценки позы и отслеживания, и даже последние работы, которые применять GAN для генерации и уточнения синтетических данных (мы надеемся вернуться к этому и объяснить, как это работает позже). Итак, давайте посмотрим, что авторы CVPR 2018 говорят о синтетических данных. Поскольку это наша основная задача, мы рассмотрим работы с синтетическими данными чуть более подробно, чем обычно.

Генерация синтетических данных из GAN: расширение и адаптация в пространстве функций

Р. Volpi et al., Расширение состязательных функций для неконтролируемой адаптации домена
С. Санкаранараянан и др., Генерировать для адаптации: выравнивание доменов с помощью генерирующих состязательных сетей

Существует очень интересная и многообещающая область использования GAN для создания синтетических наборов данных для обучения других моделей. На первый взгляд, это не имеет особого смысла: если у вас достаточно данных для обучения GAN, почему бы просто не использовать их для обучения модели? Или даже лучше, если у вас есть обученный GAN, почему бы вам просто не взять дискриминатор и не использовать его для решения своей проблемы?

Но эта идея становится намного интереснее в настройке адаптации домена. Предположим, у вас есть большой исходный набор данных и небольшой целевой набор данных, и вам нужно использовать модель, обученную на исходном наборе данных для цели, которая может быть полностью немаркирована. Здесь методы адаптации состязательной области обучают две сети, генератор и дискриминатор, и используют их, чтобы гарантировать, что сеть не может различать распределения данных в исходном и целевом наборах данных. Это поле было начато в статье Ганина и Лемпицкого ICML 2015, где дискриминатор используется для обеспечения того, чтобы функции оставались инвариантными к предметной области:

А вот схематическое изображение того, как эта идея была немного обобщена в статье Adversarial Discriminative Domain Adaptation от 2017 года:

В статье CVPR 2018, опубликованной Volpi et al., Исследователи из Италии и Стэнфорда заставили состязательную тренировку работать не на исходных изображениях, а, скорее, в самом пространстве признаков. GAN оперирует функциями, извлеченными предварительно обученной сетью, что позволяет добиться лучшей инвариантности домена и, в конечном итоге, улучшить качество адаптации домена. Вот общая процедура тренировки, адаптированная Вольпи и др.:

Другой подход в том же духе был представлен в CVPR 2018 Санкаранараянаном и др., Исследователями из Университета Мэриленда. Они используют GAN для использования неконтролируемых данных, чтобы приблизить исходный и целевой дистрибутивы друг к другу в пространстве функций. По сути, идея состоит в том, чтобы использовать дискриминатор для управления тем, чтобы изображения, сгенерированные в результате внедрения, оставались реалистичными изображениями для исходного распределения, даже если встраивание было взято из выборки из целевого распределения. Вот как это работает, и, опять же, авторы сообщают об улучшенных результатах адаптации домена:

Насколько хорошо вы должны маркировать? Исследование качества этикеток

А. Златески и др., О важности качества этикеток для семантической сегментации

Одним из главных преимуществ синтетических данных всегда было безупречное качество маркировки, которого можно легко достичь с помощью синтетических данных. Синтетическая сцена всегда имеет идеальную сегментацию - но насколько это важно? Авторы этой работы изучали, насколько точно (или грубо) вы должны маркировать свой обучающий набор, чтобы получить хорошее качество сегментации от современных сверточных архитектур ... и, конечно же, какой лучший инструмент для выполнения этого исследования, чем синтетические сцены.

Авторы использовали специально разработанный набор данных Auto City:

И в своих экспериментах авторы показали, что качество окончательной сегментации, что неудивительно, действительно сильно коррелирует с количеством времени, затрачиваемым на изготовление этикеток ... но не столько с качеством каждой отдельной этикетки. Это говорит о том, что лучше производить много грубых этикеток (например, с помощью краудсорсинга), чем проводить строгий контроль качества для каждой этикетки.

Футбол на вашем столе

К. Рематас и др., Футбол на вашем столе

Здесь, в Neuromation, мы любим футбол (да, чемпионат мира в России стоил нам много часов работы), и это исследование просто оооочень круто. Авторы представляют систему, которая может принимать видеопоток футбольного матча и преобразовывать его… в движущуюся трехмерную реконструкцию, которую можно спроецировать на вашу поверхность стола и просматривать с помощью устройства дополненной реальности!

Система извлекает ограничивающие рамки игроков, анализирует человеческие фигуры с помощью моделей оценки позы и глубины и производит довольно точную реконструкцию трехмерной сцены. Обратите внимание, как обучение модели специально для футбольной области действительно улучшает результаты:

Кроме того, нам согревает то, что они тренировались на синтетических данных, извлеченных из игр FIFA! А результаты просто очень крутые все вокруг:

Но подождите, это еще не все ...

Спасибо за Ваше внимание! В следующий раз мы, возможно, еще более подробно рассмотрим некоторые статьи CVPR 2018, касающиеся синтетических данных и адаптации предметной области. До тех пор!

Сергей Николенко
Главный научный сотрудник, Нейроматология

Алексей Артамонов
Старший научный сотрудник, Нейроматология