TL; DR: внизу.

Я только что вернулся с Международной конференции по обучающимся представительствам (ICLR) 2019 года в Новом Орлеане, и этот год был плодотворным для статей GAN. В первом разделе я обсуждаю темы, включающие статьи по синтезу изображений (BigGAN), аудио (WaveGAN), выбору функций (KnockoffGAN), 3D, тексту и таблицам и многому другому! Вторая часть этой статьи сосредоточена на более практических аспектах машинного обучения.

УДАЧА СЛУЖАЕТ ГОТОВЫМ

Перед тем, как пойти в ICLR, я составил список всех лекций и семинаров, на которых было что-то, чему я хотел бы научиться. Это означало, что понедельник был очень загруженным - в какой-то момент параллельно проходили четыре интересных семинара (подробнее о семинарах в разделе Прикладное машинное обучение). Это также означало напряженный вторник, когда организаторы выложили в день 37 газет GAN. Это означало, что плакаты начали рано, а закончили поздно. Я все это отслеживал с помощью электронной таблицы.

Я включил ссылки на все упомянутые мною документы, и есть даже ссылки на прямые трансляции семинаров, а также пленарное заседание, на котором также широко представлены GAN.

СОЗДАННЫЙ НЕПОЛАДНЫЙ РАЗДЕЛ

Здесь я хочу исследовать изменения, особенно просто обсуждая генеративные состязательные сети (GAN). Как многие уже говорили, это захватывающая новая технология, которая, в отличие от большинства других систем машинного обучения, существует менее 5 лет. В духе предыдущей статьи ICML 2018 я поговорил с учеными, чтобы вам не приходилось это делать, но, учитывая объем содержания, больше невозможно просматривать каждую статью, поэтому я просто выберу несколько основных темы.

ТЕМА 1: СИНТЕЗ ИЗОБРАЖЕНИЯ НАЗРЕВАЕТСЯ

Ян Гудфеллоу часто говорит о том, как революция в области глубокого обучения в 2012 году привела к кембрийскому взрыву приложений машинного обучения. Это связано с тем, что в любой технической области первоочередной задачей является обеспечение надежной работы технологии, что позволяет реализовать множество последующих приложений.

В некоторой степени это произошло с синтезом изображений. Теперь, когда BigGAN может надежно генерировать самые разнообразные изображения с высокой точностью, мы можем начать думать о применении его для других сценариев использования. Одним из примеров является использование BigGAN как способа увеличения существующих обучающих данных (т.е. искусственного увеличения количества точек данных путем синтеза новых). Теперь, несмотря на то, что в ICLR была принята еще одна статья, показывающая ограничения этого метода. Кажется, что в этом случае сбалансированного набора данных увеличение данных GAN, вероятно, имеет ограниченное влияние на последующую задачу. Но сам факт того, что это предложение серьезно изучается, кажется хорошим знаком и по-прежнему оставляет неизученными многие возможности для расширения данных.

Еще одна задача, которая может нас заинтересовать, - это синтез изображений с меньшим количеством меток. В исходном BigGAN мы используем все метки в ImageNet для синтеза 1000 типов объектов. Однако в другой статье ICLR мы можем видеть изображения столь же высокого качества с 10% этикеток и даже лучшие результаты, чем BigGAN с 20%, при использовании самообучения и обучения с полу-контролем.

Кроме того, ICLR представил несколько статей с интересными предложениями по достижению более детального контроля над сгенерированными изображениями. Так что теперь жираф, которого вы всегда хотели видеть на фотографиях, а не бывшего, может оказаться как раз в нужном месте.

Я просто поражен тем, насколько быстро развивается эта область: менее чем за 5 лет с момента выхода оригинальной статьи нам удалось создать 1000 классов изображений 512x512, которые достаточно реалистичны для использования в последующих приложениях. По словам Кароли Жолнаи-Фехер, какое время быть живыми!

ТЕМА 2: ВИДЫ / ПРИМЕНЕНИЕ ЭКЗОТИЧЕСКИХ ДАННЫХ.

Другой важной темой ICLR этого года было присутствие более «экзотических» типов данных и приложений. Я просто пройду через пару наиболее интересных. Мне это снова кажется несколько свидетельством растущей зрелости GAN как области.

  • WaveGAN: это условный синтез звука с использованием GAN с использованием расширенных сверток и DCGAN-подобной архитектуры.
  • TimbreTron: использует CycleGAN для передачи музыки с одного инструмента (домена) на музыку другого (доменного) инструмента.
  • PateGAN: GAN для генерации синтетических данных с дифференциальными гарантиями конфиденциальности.
  • KnockoffGAN: это способ сделать надежный выбор функций с помощью GAN с подделками. В целом, эта статья была бы одной из самых запутанных.
  • LayoutGAN: способ создания каркасов пользовательского интерфейса с использованием GAN путем разумной компоновки различных элементов пользовательского интерфейса в двухмерном пространстве.
  • CompositionalGAN: способы создания реалистично выглядящих композиций путем сопоставления различных 3D-объектов и их компоновки для создания новых сцен с реалистичным освещением и окклюзией.
  • Создание трехмерного облака точек, Создание белковой основы и Создание помеченного графа: эти статьи выходят за рамки моей компетенции, и статьи в этой широкой области также представлены на ICML 2018, но приятно видеть, что эта работа продолжается.

ТЕМА 3: ТЕОРЕТИЧЕСКИЕ ДОСТИЖЕНИЯ

Как всегда, было много статей, посвященных каким-либо аспектам обучения (отбраковочная выборка, релятивистская GAN, узкое место вариационного дискриминатора) или некоторым теоретическим свойствам генеративных моделей (например, латентные пространственные интерполяции или обратимость GAN). ).

Хотя академикам нравится эта область, на ICML ’18 результаты были несколько неоднозначными. Я чувствовал, что многие статьи вводят огромное количество дополнительных сложностей для получения некоторых свойств, которые я не считал очень интересными или не ожидал, что они станут фактическим стандартом таким же образом, например Вассерштейн GAN или штрафы за градиент равны.

К счастью, в ICLR этого не произошло. Все три вышеперечисленных метода плюс усреднение во время тренировки выглядят как простые и эффективные методы, которые легко могут стать стандартным шаблоном для будущих достижений.

ПРИКЛАДНОЕ МАШИННОЕ ОБУЧЕНИЕ

Как человеку, которому все еще часто приходится беспокоиться о том, как я собираюсь производить системы, которые создаю. Я был очень приятно удивлен, что даже организаторы семинара из ICLR сочли это важным. Поэтому я пытался запечатлеть весь интересный контент из следующих семинаров:

  • Воспроизводимость в машинном обучении: в итоге семинар оказался довольно полезным. Кстати, когда я был там, там было всего около 7 человек, поэтому мне интересно, что это говорит о состоянии нашей области. В общем, я считаю воспроизводимость невероятно важной темой, потому что воспроизводимость - это действительно нулевой уровень понимания того, как ведут себя развернутые системы машинного обучения. Так что все эти разговоры о справедливости и предвзятости почти бессмысленны, если мы не понимаем это правильно.
  • Отладка ML: это был довольно полезный семинар, но, к сожалению, многие презентации либо не содержали кода, либо были очень академичными. Я обязательно попытаюсь исследовать Model Assertions, так как эта идея мне очень понятна. В целом, повторная отладка чрезвычайно важна для нас, чтобы мы в некоторой степени понимали, как строятся модели. Все, от состязательных примеров до нейронных сетей, способных соответствовать случайно назначенным ярлыкам, - все это индикаторы того, что нам нужно больше инструментов для понимания глубокого обучения.
  • Обучение на ограниченных данных с пометками: это невероятно интересно, поскольку мало данных - частая бизнес-реальность. Меня воодушевило участие Кристофера Ре, однако я не думаю, что для меня это было чем-то особенно сильным.
  • Создание высокоструктурированных данных: Несмотря на то, что Бенжио вначале много говорил, я не нашел устные презентации настолько полезными, хотя я настоятельно рекомендую проверить принятые документы.

ВЫВОД

В целом, я постоянно удивляюсь темпам прогресса машинного обучения, и у академических конференций есть свои недостатки, но если вы планируете и подготовитесь соответствующим образом, вы получите их гораздо больше, чем на любой другой конференции, на которой я когда-либо был.

TL;DR:

  • Мы генерируем реалистичные изображения размером 512x512 в огромном разнообразии, что приводит к дальнейшим приложениям.
  • Сети GAN, похоже, получают больше поддержки в отношении других типов данных, но срок их реализации составляет прибл. где изображения были в 2016 году.
  • Даже ученые теперь больше думают о практических соображениях и инструментах машинного обучения, хотя они не всегда так это называют.

Спасибо доктору Дэниелу Дума и Харпалу Сингху за отличный отзыв.