Высокие вычислительные затраты на вывод из сложного и часто трудноразрешимого «истинного апостериорного распределения» всегда были камнем преткновения в байесовской структуре. Однако (и, к счастью), существуют определенные методы вывода, которые способны достичь разумного приближения этой трудноизлечимой апертуры к чему-то… послушному. Видите, что я там делал?

Одним из таких приближенных методов вывода, который приобрел популярность в последнее время, является вариационный байесовский (VB). Имеющий относительно низкие вычислительные затраты и хорошее эмпирическое приближение подтолкнул его к интуиции, лежащей в основе успешных моделей, таких как вариационные автокодировщики и другие. В этой статье я постараюсь создать интуитивное представление о вариационном Байесе как о модели скрытых переменных, стремящейся максимально приблизить «истинное апостериорное распределение» за счет оптимизации статистической меры, называемой расхождением Кульбака-Лейблера.

Интересный факт: хотя мы используем VB для построения аппроксимации апостериорного распределения, это не его основная мотивация. Идея апостериорной аппроксимации появляется при попытке максимизировать логарифмическое предельное правдоподобие. Вот увидишь! - Первый курс по машинному обучению Саймона Роджерса и Марка Джиролами.

Прежде чем мы продолжим, давайте рассмотрим простой (игрушечный) пример, чтобы заложить основу идеи скрытых переменных (и, возможно, понять различие между скрытыми переменными и параметрами модели).

Пример игрушки:

Качество жизни (QoL) - это общий показатель, используемый ВОЗ для описания состояния условий жизни в данном географическом регионе. Его часто определяют как степень, в которой человек здоров, чувствует себя комфортно и способен участвовать в жизненных событиях или получать от них удовольствие [1]. Несмотря на то, что количественное определение таких абстрактных количеств обычно затруднено, на основе общего понимания мы можем придумать некоторые (простые) индикаторы, которые могли бы повлиять на этот показатель качества жизни. Например, ВВП на душу населения в регионе, уровень занятости, качество образования, здравоохранения, благосостояния, индекс счастья - все это довольно легко поддающиеся обработке характеристики, которые могут повлиять на качество жизни. (см. рисунок)

Говоря о нашей выдуманной модели, мы можем видеть, что существует множество факторов, как непосредственно наблюдаемых, так и иных, которые (могут) повлиять на нашу интересующую нас величину, то есть на показатель качества жизни. Поскольку мы не можем измерить это абстрактное значение само по себе, мы использовали несколько суррогатных (наблюдаемых) переменных для некоторой количественной оценки. Такая величина называется скрытой переменной. Значение скрытой переменной может быть выведено из измерений наблюдаемых переменных, которые могут на нее повлиять. Так обстоит дело во многих реальных сценариях, и именно здесь могут быть полезны модели со скрытыми переменными.

Даже когда мы (ошибочно) предполагаем, что знаем о взаимосвязи между величиной, которую мы можем наблюдать, и тем, что мы хотим наблюдать, могут иметь место некоторые неизвестные или скрытые переменные, которые остаются неучтенными.

Однако эти неучтенные или скрытые количества учитываются при использовании моделей со скрытыми переменными. В противном случае в дальнейшем эти величины могут оказаться ошибочными в нашей модели. Чтобы получить некоторую интуицию о преднамеренном моделировании ошибки, ознакомьтесь с этой статьей:



Вариационный вывод: байесовский путь

Усвоив наш короткий пример идеи скрытых переменных, давайте контекстуализируем нашу основную идею вариационного вывода, рассмотрев общий сценарий моделирования с некоторыми наблюдаемыми данными Y, и параметрами модели. и / или скрытые переменные, определенные θ. В байесовской области обычно мы определяем и параметры модели, и скрытые переменные, рассматривая их как случайные величины и объединяя их вместе в члене θ. Другими словами, мы рассматриваем все, о чем мы не знаем в данном сценарии, как часть этой θ переменной . Тем, кто обращал внимание на максимальное увеличение предельной вероятности журнала! Маргинал выглядит так,

где мы суммируем вероятность p (Y | θ) по всем возможным значениям параметра θ, взвешено по предыдущему p (θ), и мы стремимся максимизировать это количество. Однако из-за потенциально большого размерного интеграла по всему пространству параметров мы не сможем получить точную оценку этого выражения; поэтому мы воспользуемся неравенством Дженсона, чтобы установить нижнюю границу для log (который является выпуклой функцией) нашего маргинальный термин.

Если взять логарифмическую оценку предельной вероятности, мы получим следующее:

Перед применением неравенства Дженсона мы вводим Q (θ),, которое является произвольным распределением по θ, путем умножения и разделив его с правой стороны. Глядя на выражение неравенства, которое мы упомянули выше, наш правый член можно рассматривать как ожидание члена p (Y, θ) / Q (θ) относительно члена Q (θ). Теперь, применяя неравенство Дженсона, мы можем получить нижнюю границу нашего маргинального журнала.

Учитывая, что мы выбрали это распределение Q (θ) произвольно, это вариационный регулятор, который мы можем точно настроить, и этот факт станет весьма важным открытием, поскольку вы увидите.

Теперь давайте вычислим разницу между нашим логарифмическим членом маргинального правдоподобия и нижней границей L (Q), которую мы только что нашли.

Вам знаком интегральный термин? Давайте немного очистим его, например:

Выражение под интегралом работает (довольно красиво) как расхождение Кульбака-Лейблера (KL) между нашим истинным апостериорным p (θ | Y) и произвольно выбранный Q (θ). Интересно, что KL-дивергенция - это мера, которая часто используется для количественной оценки разницы между двумя распределениями вероятностей и, в нашем случае, апостериорным (которое мы хотим аппроксимировать) и произвольно выбранным Q (θ) - это те два распределения. Появление этого члена расхождения KL при выводе нашего вариационного байесовского упражнения - не просто совпадение; мы действительно пытаемся найти приблизительное распределение, которое наиболее похоже на форму нашего истинного апостериорного распределения, и вуаля! Q (θ) - вариационная ручка, которая позволяет нам настраивать член L (Q) и, соответственно, увеличение L (Q) позволит Q (θ) до становятся более похожими на истинную апостериорную p (θ | Y), тем самым уменьшая отрицательное значение дивергенции KL!

Примечание. Расхождение KL как мера обычно меньше или равно нулю, а его максимальное значение, т. е. ноль, возникает , когда два распределения равны. Таким образом, в случае, когда мы находим истинное апостериорное, член дивергенции KL будет равен нулю, а граница L (Q) будет равно логарифмическому предельному правдоподобию!

По сути, мы аппроксимировали истинное апостериорное распределение, используя член нижней границы вместо всего распределения, что упрощает оптимизацию. Как видно на рисунке выше, идея состоит в том, чтобы попытаться найти истинное апостериорное распределение, используя произвольное распределение Q (θ). Эта оптимизация Q (θ) как наилучшего приближения апостериорного, p (θ | Y) обычно достигается с помощью итеративной процедуры оптимизации, такой как алгоритм Максимизация ожиданий (EM). Внимательно прочтите статью Рави Чарана об алгоритме EM (довольно много математической):



На этом завершается путь вывода к (потенциально) пониманию мощной идеи, лежащей в основе современных моделей, таких как вариационные автокодировщики и генеративные состязательные сети. Эта статья Джозефа Рокка является отличным чтением для исчерпывающей концептуализации VAE.



Спасибо за уделенное время! Если вам понравилась эта статья, поставьте лайк или поделитесь ею, чтобы показать свою поддержку и сообщить мне о своих интересах. Следуйте за мной на Medium или подключайтесь через LinkedIn.

До скорого!

Использованная литература:

  1. Статья в Википедии о качестве жизни (QOL): https://en.wikipedia.org/wiki/Quality_of_life
  2. Саймон Роджерс и Марк Джиролами. 2016. Первый курс машинного обучения, второе издание (2-е изд.). Chapman & Hall / CRC.