Когда я учился в аспирантуре по информатике в Duke ~ 2007/2008, тогдашний DGS статистики (Мерлиз Клайд, кажется, теперь председатель) попытался завербовать меня, чтобы я оставил факультет информатики и поступил на работу в статистический отдел. У меня зарождалась любовь к статистике, но она еще не сформировалась полностью. Ее предложение удивило меня и показалось интересным, но я отклонил его. Если бы я предвидел слияние машинного обучения и статистики сегодня *, возможно, я бы согласился. Но Дух Господа не привел меня туда в то время. Статистика сейчас невероятно интересна и очень увлекательна. Но CS по-прежнему доставляет удовольствие. Так кто знает? Может, мне следовало «получить четверной специальности». Я отвлекся. Одним из ярких примеров статистического машинного обучения является вариационный автоэнкодер.

Вариационные автоэнкодеры (VAE) - это увлекательная модель, сочетающая байесовскую статистику с глубокими нейронными сетями. VAE носят множество шляп и соединяют множество разных миров. Они состоят из, по крайней мере частично и полностью, из следующего:

  • Глубокие нейронные сети,
  • Байесовские статистические машины,
  • Скрытые переменные модели,
  • Оценщики максимального правдоподобия,
  • Редукторы размерности и
  • Генеративные модели.

Из-за этой глубокой взаимосвязанности получить глубокое понимание VAE в теории и на практике означает получить глубокое понимание большей части науки о данных.

Автоэнкодеры существуют уже давно, но они страдают от того, что не являются действительно генеративными моделями, поскольку скрытое пространство не является действительно непрерывным. Эта проблема была решена Дидериком Кингмой и Максом Веллингом примерно в 2013 году в работе, которую они представили в своей статье под названием Вариационное байесовское кодирование с автоматическим кодированием. Их модель модифицировала стандартные автокодеры, моделируя распределение как выходные данные кодировщика, а не просто хрупкий вектор чисел. Затем они производили выборку из распределения во время прямого прохода и использовали трюк с повторной параметризацией, допускающий обратное распространение на этапе выборки. Следует отметить, что сам трюк с повторной параметризацией существовал дольше, но приобрел большую популярность из-за его применения к VAE. Точно так же идеи, которые теперь все вместе известны как вариационный вывод, существуют уже несколько десятилетий (Peterson & Anderson 1988; Jordan et. Al. 1999) и являются основной темой этого руководства.

* Слияние машинного обучения и статистики действительно произошло еще в годы моей учебы в аспирантуре и, более того, за много десятилетий до этого. То, что мы наблюдаем сегодня, по сути, является просто ребрендингом, а не слиянием или созданием нового гибридного направления.

Вариационный вывод: краткое введение

В байесовской статистике цель часто состоит в том, чтобы определить апостериорное распределение p (z | x) скрытой переменной z при наличии некоторого свидетельства данных x. Однако определение этого апостериорного распределения обычно трудно поддается вычислению, потому что, согласно Байесу,

что трудноразрешимо, поскольку оно включает вычисление интеграла по всему скрытому пространству z, а также обычно потому, что требует знания или вычисления всего распределения свидетельств p (x). Чтобы обойти эту проблему неразрешимости, вместо этого аппроксимируют апостериорное распределение некоторым другим распределением q (z | x) таким образом, чтобы минимизировать некоторую меру сходства между истинным апостериорным и приближением q. Здесь мы используем Кульбака-Лейблера, D_KL:

Не пугайтесь приведенного выше выражения, расхождения Кульбака-Лейблера. Мы разделим его на простые части и создадим с нуля позже в этом уроке. А пока просто знайте, что мы используем его как меру сходства между истинным апостериорным p (z | x) и приближенным апостериорным q_θ (z | x). Также обратите внимание, что в VAE приблизительное апостериорное, q_θ (z | x), моделируется глубокой нейронной сетью, кодировщиком, который дает статистику распределения - в частности, среднее - распределения - обычно гауссовского - скрытого Космос. Выборка из этих распределений передается в декодирующую часть модели во время прямого прохода при обучении, и этот этап выборки повторяется с каждой итерацией алгоритма. Это вариационная часть вариационных автокодировщиков. Это то, что отличает VAE от AE (обычных автокодировщиков), и это то, что обеспечивает непрерывность скрытого пространства, делая VAE действительно генеративными моделями.

Хорошо, теперь вернемся к нашей мере сходства, расхождению Кульбака-Лейблера (KL). манипулируя им, получаем следующее уравнение:

А поскольку KL-дивергенция неотрицательна, отсюда следует, что

Член справа в приведенном выше уравнении называется вариационной нижней границей или доказательной нижней границей (ELBO). Это потому, что он служит нижней границей доказательства, x_i. Обратите внимание на уравнение, что максимизация ELBO максимизирует логарифмическую правдоподобность наших данных. А для фиксированной точки данных логарифмическая вероятность является константой, поэтому максимизация ELBO синонимична минимизации расхождения KL, поскольку оба члена в сумме дают константу. Это основная стратегия вариационного вывода. В вариационном выводе мы используем максимизацию ELBO как прокси для минимизации дивергенции KL. Это, в свою очередь, оптимизирует нашу аппроксимацию истинного апостериорного изображения приблизительным апостериорным.

В следующем уроке мы выведем каждое из приведенных выше уравнений с четкими пошаговыми подробностями.

ЗАДАЧИ этого Учебного пособия

Давайте повторим и резюмируем вышеупомянутое введение и расскажем немного больше о том, что мы будем делать в этом руководстве. В байесовском машинном обучении апостериорное распределение обычно сложно вычислить, поэтому часто требуется вариационный вывод. В этом подходе доказательная нижняя граница логарифмической вероятности данных максимизируется во время обучения. Вариационные автоэнкодеры (VAE) - один из важных примеров использования вариационного вывода. В этом руководстве мы выведем вариационную функцию потерь с нижней границей стандартного вариационного автокодировщика. Мы сделаем это в случае гауссовского латентного априорного и гауссовского приближенного апостериорного, при которых предположения, что член Кульбака-Лейблера в вариационной нижней границе имеет решение в замкнутой форме. Мы извлечем практически все, что используем на этом пути; все, от теоремы Байеса до расхождения Кульбака-Лейблера.

Теорема Байеса

Теорема Байеса - это способ обновить веру по мере появления новых свидетельств. Вероятность гипотезы z при некоторых новых данных x обозначается p (z | x) и задается формулой

где p (x) - вероятность данных x, p (x | z) - вероятность данных при условии гипотезы z, а p (z) - вероятность этой гипотезы z. Хотя теорема Байеса сама по себе может показаться неинтуитивной или, по крайней мере, трудной для интуитивного понимания, ключом к ее пониманию является ее вывод. Она возникает непосредственно из аксиомы условной вероятности, которая сама возникает из определения совместной вероятности. Вероятность одновременного возникновения события X и события Y равна

А поскольку "И" коммутативно, мы имеем

Разделив обе части уравнения (4) на p (Y), получаем теорему Байеса

Дивергенция Кульбака-Лейблера

При сравнении двух распределений, как мы часто делаем при оценке плотности, центральной задаче генеративных моделей, нам нужна мера сходства между обоими распределениями. Расхождение Кульбака-Лейблера - обычно используемая мера подобия для этой цели. Это ожидание разницы в информации между обоими распределениями. Но сначала, что такое информация? Чтобы понять, что такое информация, и увидеть ее определение, примите во внимание следующее: чем выше вероятность события, тем ниже его информационное содержание. Это имеет интуитивный смысл в том смысле, что если кто-то говорит нам что-то «очевидное», то есть весьма вероятное, то есть то, что мы и почти все остальные уже знали, то этот информатор не увеличил объем информации, который у нас есть. Следовательно, информативность весьма вероятного события невысока. Другими словами, информация обратно пропорциональна вероятности события. А поскольку log (p (x) напрямую связано с p (x), отсюда следует, что - log (p (x)) обратно пропорционально p (x), и именно так мы моделируем информацию:

Таким образом, разница в информации между q (x) и p (x):

И Кульбака-Лейблера - это ожидание указанной выше разницы, и он выражается следующим образом:

Сходным образом,

Обратите внимание, что Кульбака-Лейблера (KL) не является симметричным, т. Е.

В DKL (q (x) || p (x)) мы берем математическое ожидание разницы информации относительно распределения q (x), тогда как в DKL (p (x) || q (x)) мы принимают математическое ожидание относительно распределения p (x). Следовательно, модель Кульбака-Лейблера называется «дивергенцией», а не «метрикой», поскольку метрики должны быть симметричными. Недавно был предложен ряд устройств симметризации для KL, которые, как было показано, улучшают его генеративную точность [Chen et al. (2017)] [Arjovsky et al. (2017)]. Обратите внимание, что расхождение KL всегда неотрицательно, т. Е.

Чтобы увидеть это, обратите внимание, что, как показано на рисунке (1),

Следовательно

Мы только что показали,

что означает,

Цель VAE

Рассмотрим вариационные автоэнкодеры [Kingma et al. (2013)]. У них есть много применений, в том числе для более точной характеристики болезни [Odaibo (2019)]. Кодирующая часть VAE дает приблизительное апостериорное распределение q (z | x) и параметризуется в нейронной сети с помощью весов, обозначаемых вместе θ. Следовательно, мы более правильно записываем кодировщик как qθ (z | x). Точно так же часть декодера VAE дает распределение правдоподобия p (x | z) и параметризуется в нейронной сети весами, которые вместе обозначаются φ. Следовательно, мы более правильно обозначим часть декодера VAE как pφ (x | z). Выходными данными кодировщика являются параметры скрытого распределения, которые дискретизируются для получения входных данных в декодер. Схема VAE показана на рисунке (2).

Расхождение KL между приближенным и реальным апостериорным распределениями определяется выражением

Применение теоремы Байеса к приведенному выше уравнению дает

Это можно разбить, используя законы логарифмов, давая

Распределение подынтегрального выражения дает,

Выше мы отмечаем, что log (p (xi)) является константой и поэтому может быть извлечен из второго интеграла выше, давая,

И поскольку qθ (z | xi) - это распределение вероятностей, оно интегрируется с 1 в приведенном выше уравнении, что дает

Перенося интеграл на другую часть неравенства, получаем

Применяя правила логарифмов, получаем,

Признавая правую часть указанного неравенства как ожидание, мы пишем:

Из уравнения (23) также следует, что:

Правая часть приведенного выше уравнения - это нижняя граница доказательств (ELBO), также известная как вариационная нижняя граница. Он назван так потому, что ограничивает вероятность данных, которые мы стремимся максимизировать. Следовательно, максимизация ELBO максимизирует вероятность регистрации наших данных по доверенности. Это основная идея вариационного вывода, поскольку максимизация логарифмической вероятности напрямую обычно трудноразрешима с вычислительной точки зрения. Член Кульбака-Лейблера в ELBO является регуляризатором, поскольку он ограничивает форму приближенного апостериорного выражения. Второй член называется термином восстановления, потому что он является мерой вероятности вывода восстановленных данных в декодере.

Примечательно, что у нас есть некоторая свобода выбора структуры для наших скрытых переменных. Мы можем получить замкнутую форму для функции потерь, если выберем гауссовское представление для скрытого априорного p (z) и приближенного апостериорного qθ (z | xi). В дополнение к получению функции потерь замкнутой формы, гауссовская модель обеспечивает форму регуляризации, в которой приближенные апостериорные значения имеют вариацию или разброс (например, гауссову).

Закрытая форма VAE Loss: Gaussian Latents

Скажем, мы выбираем:

а также

тогда термин KL или регуляризации в ELBO становится:

Вычисление члена в логарифме упрощает приведенное выше до:

Это еще больше упрощается до

что далее упрощается в,

А поскольку дисперсия σ ^ 2 - это математическое ожидание квадрата расстояния от среднего, т. Е.

следует, что,

Напомним, что,

следовательно,

Напомним ELBO, уравнение (28),

Из чего следует, что вклад заданного значения x_i и одного стохастического притяжения в достижение цели, которая должна быть максимизирована, составляет,

где J - размерность скрытого вектора z, а L - количество выборок, отрисовываемых стохастически в соответствии с трюком повторной параметризации.

Поскольку целевая функция, которую мы получаем в уравнении (42), должна быть максимизирована во время обучения, мы можем рассматривать ее как функцию «усиления», а не как функцию потерь. Чтобы получить функцию потерь, мы просто возьмем отрицательное значение G:

Поэтому для обучения VAE нужно искать оптимальные параметры сети (θ ∗, φ ∗), которые минимизируют L:

Заключение

Мы сделали пошаговый вывод функции потерь VAE. Попутно мы проиллюстрировали суть вариационного вывода и вывели потерю замкнутой формы в частном случае гауссовского латентного.

БИО

Доктор Стивен Г. Одайбо является генеральным директором и основателем RETINA-AI Health, Inc и работает на факультете онкологического центра доктора медицины Андерсона, онкологического центра №1 в мире. Он врач, специалист по сетчатке глаза, математик, компьютерный ученый и инженер полного цикла искусственного интеллекта. В 2017 году он получил высшую награду UAB College of Arts & Sciences - Премию выдающихся выпускников. А в 2005 году он получил премию Барри Гурвица за выдающиеся достижения в области неврологии в Медицинской школе Duke Univ, где он стал лидером в классе неврологии и педиатрии. Он является автором книг «Квантовая механика и МРТ» и «Форма конечных групп: курс теории конечных групп». Доктор Одайбо председательствовал на симпозиуме «Искусственный интеллект и технологии в медицине» на заседании Национальной медицинской ассоциации в 2019 году. С помощью RETINA-AI он и его команда создают решения на основе искусственного интеллекта для решения самых насущных проблем здравоохранения в мире. Он живет со своей семьей в Хьюстоне, штат Техас.

REFERENCES:
Odaibo SG. retina-VAE: Variationally Decoding the Spectrum of Macular Disease. arXiv:1907.05195. 2019 Jul 11
Kingma DP, Welling M. Autoencoding Variational Bayes. arXiv preprint arXiv:1312.6114. 2013 Dec 20
Odaibo SG. Tutorial: Deriving the Standard Variational Autoencoder (VAE) Loss Function. arXiv:1907.08956. 2019 Jul 21
Chen L, Dai S, Pu Y, Li C, Su Q, Carin L. Symmetric Variational Autoencoder and Connections to Adversarial Learning. arXiv preprint arXiv:1709.01846. 2017 Sep 6
Arjovsky M, Bottou L. Towards Principled Methods for Training Generative Adversarial Networks. arXiv preprint arXiv:1701.04862. 2017 Jan 17
Peterson, C. and Anderson, J. (1987). A mean field theory learning algorithm for neural networks. Complex Systems, 1(5):995–1019.
Jordan, M. I., Ghahramani, Z., Jaakkola, T., and Saul, L. (1999). Introduction to variational methods for graphical models. Machine Learning, 37:183–233.
Blei, David M., Alp Kucukelbir, and Jon D. McAuliffe. “Variational inference: A review for statisticians.Journal of the American statistical Association 112.518 (2017): 859–877.