Генеративные модели привлекают большое внимание исследовательского сообщества по машинному обучению. Подобные модели находят практическое применение в различных областях. Двумя наиболее часто используемыми и эффективными подходами в последнее время являются вариационные автоэнкодеры (VAE) и генеративные состязательные сети (GAN).

Хотя обычные автоэнкодеры могут научиться генерировать компактные представления и хорошо реконструировать свои входные данные, они довольно ограничены, когда дело доходит до практических приложений. Фундаментальная проблема стандартных автокодировщиков заключается в том, что скрытое пространство (в котором они кодируют распределение входных данных) может быть непостоянным, поэтому не может обеспечить гладкую интерполяцию. Другой тип автоэнкодеров, называемых вариационными автоэнкодерами (VAE), может решить эту проблему, и их скрытые пространства, по замыслу, являются непрерывными, что позволяет легко выполнять произвольную выборку и интерполяцию. Это позволило VAE стать очень популярными и использоваться для множества различных задач, особенно в области компьютерного зрения.

Однако контроль и понимание глубоких нейронных сетей, особенно глубоких автокодировщиков, является сложной задачей, и возможность контролировать то, что сети изучают, имеет решающее значение.

Предыдущие работы

Проблема распутывания признаков исследовалась в литературе, касающейся обработки изображений и видео, а также анализа текста. Для контроля и понимания глубоких сетей необходимы факторы различия, и для решения этой проблемы было предпринято множество попыток.

В прошлых работах исследовалось разделение представлений скрытых изображений на измерения, которые учитывают различные факторы вариации. Например, идентичность, освещение и пространственная поддержка, затем низкоразмерные преобразования, такие как вращение, перемещение или масштабирование, или более описательные уровни вариации, такие как возраст, пол, ношение очков.

Современная идея

Недавно Zhixin Shu et al. представили деформирующие автоэнкодеры или сокращенно DAE - генеративную модель для изображений, которая позволяет отделить форму от внешнего вида без присмотра. В своей статье исследователи предлагают способ расчленения формы и внешнего вида, предполагая, что экземпляры объектов получены путем деформации прототипный объект или шаблон. Это означает, что вариативность объекта можно разделить на вариации, связанные с пространственными преобразованиями, связанными с формой объекта, и вариации, связанные с внешним видом. Как бы просто ни звучала идея, этот вид распутывания с использованием глубоких автоэнкодеров и обучения без учителя оказался весьма действенным.

Метод

Предлагаемый метод позволяет выделить форму и внешний вид как факторы вариации в изученном скрытом пространстве меньшей размерности. Этот метод использует архитектуру глубокого обучения, состоящую из сети кодировщика, которая кодирует входное изображение в два скрытых вектора (по одному для каждой формы и внешнего вида), и двух сетей декодеров, принимающих скрытые векторы в качестве входных и выводящих сгенерированную текстуру и деформацию соответственно.

Независимые сети декодеров изучают функции внешнего вида и деформации. Созданная пространственная деформация используется для деформации текстуры до наблюдаемых координат изображения. Таким образом, деформирующий автоэнкодер может реконструировать входное изображение и в то же время разделить форму и внешний вид на разные элементы. Вся архитектура обучается неконтролируемым образом с использованием только простой потери восстановления изображения.

В дополнение к деформирующим автоэнкодерам (DAE) исследователи предлагают деформирующие автоэнкодеры с поддержкой классов, которые учатся реконструировать изображение, в то же время распутывая факторы изменения формы и внешнего вида, обусловленные классом. Чтобы сделать это возможным, они вводят сеть классификаторов, которая принимает скрытый вектор (третий скрытый вектор, используемый для кодирования класса, помимо скрытых векторов для формы и внешнего вида). Такая архитектура позволяет изучать модель смеси, обусловленную классом входного изображения (а не совместное мультимодальное распределение).

Они показывают, что внедрение обучения с учетом класса резко улучшает производительность и стабильность обучения. Интуитивно это можно объяснить тем, что сеть учится разделять пространственную деформацию, различающуюся для разных классов.

Кроме того, исследователи предлагают деформирующий автоэнкодер, чтобы научиться распознавать альбедо и затенение (широко распространенная проблема компьютерного зрения) на изображениях лиц. Они называют эту архитектуру внутренним деформирующим автоэнкодером, и она показана на рисунке ниже.

Полученные результаты

Показано, что этот метод может успешно различать форму и внешний вид, обучаясь восстанавливать входное изображение неконтролируемым образом. Они показывают, что деформирующие автоэнкодеры с поддержкой классов обеспечивают лучшие результаты как при реконструкции, так и при изучении внешнего вида.

Помимо качественной оценки, предлагаемая архитектура деформирующего автоэнкодера оценивается количественно в отношении точности локализации ориентира. Метод оценивался на

  1. неконтролируемое выравнивание изображения / вывод внешнего вида;
  2. изучение семантически значимых многообразий формы и внешнего вида;
  3. неконтролируемое внутреннее разложение
  4. неконтролируемое обнаружение ориентиров.

Смотреть видео:

Сравнение с другими современными

Предложенный метод был оценен по тесту MAFL - средняя ошибка при неконтролируемом обнаружении ориентиров. Он превосходит метод самоконтроля, предложенный Thewlis et al.

Заключение

Как я упоминал ранее, способность различать факторы вариации может иметь решающее значение для многих задач. Распутывание позволяет полностью контролировать и понимать модели глубоких нейронных сетей и может быть ключом к решению проблем. Этот подход представил деформирующие автоэнкодеры как особую архитектуру, способную выделять определенные факторы вариации (в данном случае форму и внешний вид). Результаты показывают, что этот метод может успешно выявить факторы изменчивости, используя архитектуру автоэнкодера.

Первоначально опубликовано на сайте neurohive.io 21 сентября 2018 г.