В этой статье рассказывается о марковских сетях, которые относятся к семейству неориентированных графических моделей (UGM). Эта статья является продолжением Байесовской сети, которая является разновидностью направленных графических моделей. Ключевой мотивацией этих сетей является параметризация Совместного распределения вероятностей на основе локальной независимости между случайными переменными.

Недостатки байесовской сети

Как правило, байесовская сеть требует предварительного определения направленности, чтобы утверждать влияние случайной величины. Но могут быть случаи, когда взаимодействие между узлами (или случайными величинами) является симметричным по своей природе, и мы хотели бы иметь модель, которая могла бы представить эту симметричность без направленного влияния.

В некоторых случаях использования байесовская сеть может не отображать Perfect Graph, включая все зависимости в распределении.

На этом рисунке нет взаимодействия между A и C, B и D, что означает, что существует условная независимость A от C, когда B или D даны. Кроме того, B не зависит от D для A или C.

Мы не можем создать байесовскую сеть, которая определяет направленное влияние, но вместо этого нам нужна сеть, которая показывает силу взаимодействия ребер между узлами.

Чтобы преодолеть этот недостаток, мы обращаемся к другому семейству вероятностных графических моделей, то есть к неориентированным графам. На рисунке 1 представлена ​​модель Маркова, которая устраняет направленное влияние краев.

Марковские сети

В байесовских сетях мы использовали условную вероятность как факторы между подключенными узлами.

Использование условной вероятности в случае неориентированных графических моделей кажется ошибочным, потому что нет направления и, следовательно, нет естественной обусловленности.

В случае с марковскими моделями мы хотим зафиксировать сродство между связанными случайными величинами. Сходство может быть действительным числом, в отличие от байесовской сети, где коэффициент вероятности находился в диапазоне от 0 до 1.

Итак, для рисунка 1 у нас могут быть факторы, которые связывают взаимодействие случайных величин.

В вышеупомянутой сети Маркова мы предположили, что случайная величина будет принимать двоичное значение: 0 или 1.

Как узнать эти числа? Даже в случае байесовских сетей! Это число, которое представляет собой сродство, получено из прошлых взаимодействий между случайными величинами (Данные). Звоните в какие-нибудь колокола? Да, именно здесь на сцену выходит Глубокое обучение. Данные используются для получения веса параметра.

В предыдущей статье упоминалось, что эти методы - путь к ограниченным машинам Больцмана, которые образуют класс нейронных сетей.

В конце концов, мы заинтересованы в использовании вероятностного подхода в этом методе. Теория вероятностей - это рабочий движок в большинстве алгоритмов глубокого и машинного обучения.

В Марковских моделях мы запишем совместное распределение вероятностей как произведение всех факторов. Используемый метод называется факторный продукт.

Мы можем столкнуться с ситуацией, когда имеем дело с ненормализованными данными. В этом случае мы используем статистическую сумму, которая делит произведение факторов.

Если мы расширим модель на рисунке 1, мы получим следующую сеть Маркова с факторами:

На этом графике марковской модели мы видим, что существуют бинарные взаимодействия, которые были учтены! Но что, если мы можем сгруппировать каждую клику *. Это существенно снизит сложность.

Клики - это подмножество или подграф неориентированной графической модели, в которой каждые две отдельные вершины в клике смежны друг с другом.

Мы будем использовать эту концепцию для продвижения концепции параметризации в марковских сетях.

Факторизация, которую мы получаем, намного проще с точки зрения факторов и менее затратна в вычислительном отношении. В заключение, распределение факторизуется по сети Маркова, H, если P можно выразить следующим образом, где D представляет собой полный подграф в H.

Это распределение называется распределением Гиббса.

Локальная независимость в сети Маркова

Пусть U будет набором всех случайных величин в нашем совместном распределении. Пусть X, Y, Z - некоторые различные подмножества U. Распределение P по случайным переменным будет означать, что X не зависит от Y при данном Z, только если мы запишем распределение как:

Мы начали эту статью с примера структуры циклического графа зависимостей A, B, C, D, которую можно разложить на:

Таким образом, аналогично байесовской независимости, мы можем сделать формальную семантику для марковских моделей: X не зависит от Non-Neighbor, данного Neighbor в Clique. Математически представлено как:

Заключительное примечание

Марковские и байесовские сетевые модели используются для условной параметризации Совместного распределения в ориентированных или неориентированных графах, имеющих связанные с ними локальные вероятностные модели. Это наша основная цель и необходимое предварительное условие для машин Больцмана с ограничениями.

Изучение и вывод этой сети - отдельная тема, выходящая за рамки этих статей.

Кушал Вала, младший научный сотрудник Datametica Solutions Pvt Ltd

Использованная литература:

[1] Дафна Коллер, Нир Фридман, Вероятностные графические модели.

[2] Д-р Митеш Хапра, Deep Learning-2, IIT-Madras