Представление на ICLR 2021: Deeper VAE Excel on Natural Image Benchmarks

Один из самых популярных подходов к неконтролируемому обучению сложных распределений, вариационные автоэнкодеры (VAE) состоят из кодировщика и декодера, построенных поверх стандартных аппроксиматоров функций (нейронных сетей). VAE показали себя многообещающе в создании многих видов сложных данных, включая лица, рукописные цифры, физические модели сцен и т. д.

Проверяя предположение о том, что достаточно глубокие VAE могут реализовывать авторегрессионные модели и другие более эффективные генеративные модели, новое исследование предлагает иерархический VAE, который превосходит PixelCNN по логарифмической вероятности на всех тестах естественных изображений. Документ в настоящее время проходит двойное слепое рецензирование для Международной конференции по представительствам в обучении (ICLR) 2021, поэтому личность автора и учреждения остается замаскированной.

Начиная с PixelCNN в 2016 году, авторегрессионные генеративные модели традиционно достигали наивысшей логарифмической правдоподобия по модальностям, несмотря на парадоксальные предположения моделирования. В статье исследуется, могут ли достаточно улучшенные VAE превзойти авторегрессионные модели, и этот вопрос, по мнению исследователей, имеет большое практическое значение.

В документе сначала представлены теоретические обоснования того, почему большая глубина может улучшить производительность VAE, а затем представлена архитектура, способная масштабироваться за пределы 70 уровней (по сравнению с 30 уровнями или меньше в предыдущей работе).

Исследователи обучили очень глубокие VAE на наборах данных естественных изображений CIFAR-10, ImageNet-32 и ImageNet-64 и проверили, может ли большая статистическая глубина — независимо от других факторов — повысить производительность. Используя больше стохастических слоев, но меньше параметров, чем в предыдущей работе, VAE превзошли модели GatedPixelCNN/PixelCNN++ во всех задачах.

Исследователи продемонстрировали, что их модель использует меньше параметров, чем PixelCNN, при этом генерируя выборки в тысячи раз быстрее. Предлагаемая модель также может легко масштабироваться до более крупных изображений, и исследователи предполагают, что такие сильные стороны могут появиться благодаря ее обучению эффективному иерархическому представлению изображений.

Эта статья отражает открытие сообщества машинного обучения, что масштабирование VAE удивительно хорошо работает для моделирования изображений — по сравнению с более сложными генеративными моделями, которые требуют авторегрессионной выборки. Например, документ Nvidia, опубликованный в июле этого года, показывает, что VAE с глубокой иерархией и тщательно разработанной сетевой архитектурой могут генерировать высококачественные изображения и достигать вероятности SOTA. Исходный код был выпущен для поддержки исследований архитектур и методов VAE, которые, как надеется команда, будут стимулировать усилия «по дальнейшему совершенствованию VAE и моделей скрытых переменных».

Статья Очень глубокие VAE обобщают авторегрессионные модели и могут превзойти их в отношении изображений находится на OpenReview.

Корреспондент: Юань Юань｜Редактор: Майкл Саразен

Синхронизированный отчет | Обзор китайских решений искусственного интеллекта в ответ на пандемию COVID-19 — 87 тематических исследований от более чем 700 поставщиков ИИ

В этом отчете предлагается взглянуть на то, как Китай использует технологии искусственного интеллекта в борьбе с COVID-19. Он также доступен на Amazon Kindle. Вместе с этим отчетом мы также представили базу данных, охватывающую дополнительные 1428 решений искусственного интеллекта для 12 сценариев пандемии.

Нажмите здесь, чтобы найти больше отчетов от нас.

Мы знаем, что вы не хотите пропустить ни одной новости или научного открытия.Подпишитесь на нашу популярную рассылку Synced Global AI Weekly, чтобы получать еженедельные обновления AI.

Представление на ICLR 2021: Deeper VAE Excel on Natural Image Benchmarks

Вопросы по теме