Почему вывод в марковских случайных полях сложен?

Я изучаю марковские случайные поля, и, по-видимому, вывод в MRF сложен/вычислительно дорог. В частности, в книге Кевина Мерфи «Машинное обучение: вероятностная перспектива» говорится следующее:

«В первом члене мы фиксируем y на его наблюдаемых значениях; это иногда называют фиксированным членом. Во втором члене y свободен; его иногда называют нефиксированным членом или контрастным членом. Обратите внимание, что вычисление нефиксированного члена термин требует логического вывода в модели, и это должно быть сделано один раз за шаг градиента. Это делает обучение ненаправленных графических моделей более сложным, чем обучение ориентированных графических моделей».

Почему мы делаем вывод здесь? Я понимаю, что мы суммируем по всем y, что кажется дорогим, но я не вижу, где мы на самом деле оцениваем какие-либо параметры. В Википедии также говорится о выводе, но только о вычислении условного распределения и необходимости суммирования по всем неуказанным узлам... но... это не то, чем мы здесь занимаемся, не так ли?

В качестве альтернативы, у кого-нибудь есть хорошая интуиция о том, почему вывод в MRF затруднен?

Источники: Глава 19 ML:PP: https://www.cs.ubc.ca/~murphyk/MLbook/pml-print3-ch19.pdf

Конкретный раздел показан ниже

введите здесь описание изображения


person Mark    schedule 05.02.2017    source источник


Ответы (1)


При обучении CRF вы хотите оценить свои параметры, \theta.

Чтобы сделать это, вы можете продифференцировать свою функцию потерь (уравнение 19.38) относительно \theta, установить ее на 0 и найти \theta.

Однако вы не сможете аналитически решить уравнение для \theta, если сделаете это. Однако вы можете минимизировать уравнение 19.38 с помощью градиентного спуска. Поскольку функция потерь выпуклая, гарантируется, что градиентный спуск даст вам глобально оптимальное решение, когда оно сходится.

Уравнение 19.41 — это фактический градиент, который вам нужно вычислить, чтобы иметь возможность выполнять градиентный спуск. Первый член легко (и с точки зрения вычислительной мощности) вычислить, когда вы суммируете наблюдаемые значения y. Однако второй член требует от вас сделать вывод. В этом термине вы не суммируете наблюдаемое значение y, как в первом термине. Вместо этого вам нужно вычислить конфигурацию y (вывод), а затем вычислить значение потенциальной функции при этой конфигурации.

person user929404    schedule 19.03.2017