1. Скрытая выпуклость GAN Вассерштейна: интерпретируемые генеративные модели с решениями в закрытой форме (arXiv)

Автор:Арда Сахинер, Толга Эрген, Бату Озтюрклер, Бурак Бартан, Джон Паули, Мортеза Мардани, Мерт Пиланчи

Аннотация: генеративно-состязательные сети (GAN) обычно используются для моделирования сложных распределений данных. И генераторы, и дискриминаторы GAN часто моделируются нейронными сетями, что создает непрозрачную задачу оптимизации, которая не является выпуклой и невогнутой по генератору и дискриминатору соответственно. Такие сети часто эвристически оптимизируются с помощью градиентного спуска-подъема (GDA), но неясно, содержит ли задача оптимизации какие-либо седловые точки и могут ли эвристические методы найти их на практике. В этой работе мы анализируем обучение GAN Вассерштейна с двухслойными дискриминаторами нейронных сетей через призму выпуклой двойственности и для различных генераторов выявляем условия, при которых GAN Вассерштейна могут быть решены точно с помощью подходов выпуклой оптимизации или могут быть представлены в виде выпукло-вогнутых игр. Используя эту интерпретацию выпуклой двойственности, мы дополнительно демонстрируем влияние различных функций активации дискриминатора. Наши наблюдения подтверждаются численными результатами, демонстрирующими силу выпуклой интерпретации, с приложениями для прогрессивного обучения выпуклых архитектур, соответствующих линейным генераторам и дискриминаторам квадратичной активации для генерации изображений CelebA. Код для наших экспериментов доступен по адресу https://github.com/ardasahiner/ProCoGAN.

2. Прогнозирование движения человека с использованием многообразия Wasserstein GAN (arXiv)

Автор:Батист Шопен, Наима Отберду, Мохамед Дауди, Анжела Бартоло

Аннотация. Прогнозирование движения человека направлено на прогнозирование будущих поз человека с учетом предшествующей последовательности поз. Прерывистость прогнозируемого движения и ухудшение характеристик в долгосрочной перспективе по-прежнему являются основными проблемами, встречающимися в современной литературе. В этой работе мы решаем эти вопросы, используя компактное многозначное представление человеческого движения. В частности, мы моделируем временную эволюцию трехмерных поз человека как траекторию, что позволяет нам сопоставлять движения человека с отдельными точками на сферическом многообразии. Чтобы изучить эти неевклидовы представления, мы строим учитывающую многообразие генеративно-состязательную модель Вассерштейна, которая фиксирует временные и пространственные зависимости человеческого движения через различные потери. Обширные эксперименты показывают, что наш подход превосходит самые современные на наборах данных CMU MoCap и Human 3.6M. Наши качественные результаты показывают плавность предсказанных движений

3. Непарный синтез глубины одиночного изображения с согласованными с циклом ГАН Вассерштейна (arXiv)

Автор:Кристоф Ангерманн, Адела Моравова, Маркус Халтмайер, Стейнбьерн Йонссон, Кристиан Лаубихлер

Аннотация: Оценка фактической глубины окружающей среды в режиме реального времени является важным модулем для различных задач автономной системы, таких как локализация, обнаружение препятствий и оценка положения. В течение последнего десятилетия машинного обучения широкое применение методов глубокого обучения для задач компьютерного зрения привело к успешным подходам к реалистичному синтезу глубины из простой модальности RGB. В то время как большинство этих моделей основаны на парных данных о глубине или наличии видеопоследовательностей и стереоизображений, не хватает методов, обеспечивающих неконтролируемый синтез глубины одиночного изображения. Поэтому в этом исследовании последние достижения в области генеративных нейронных сетей используются для полностью неконтролируемого глубинного синтеза одного изображения. Точнее, реализованы и одновременно оптимизированы с использованием расстояния Вассерштейна-1 два циклически согласованных генератора для передачи RGB-в-глубину и глубины-в-RGB. Чтобы обеспечить правдоподобие предлагаемого метода, мы применяем модели к самостоятельно полученному набору промышленных данных, а также к известному набору данных NYU Depth v2, что позволяет сравнивать с существующими подходами. Наблюдаемый успех в этом исследовании указывает на высокий потенциал оценки глубины непарного одиночного изображения в реальных приложениях.