Почему вывод в марковских случайных полях сложен?

Я изучаю марковские случайные поля, и, по-видимому, вывод в MRF сложен/вычислительно дорог. В частности, в книге Кевина Мерфи «Машинное обучение: вероятностная перспектива» говорится следующее:

«В первом члене мы фиксируем y на его наблюдаемых значениях; это иногда называют фиксированным членом. Во втором члене y свободен; его иногда называют нефиксированным членом или контрастным членом. Обратите внимание, что вычисление нефиксированного члена термин требует логического вывода в модели, и это должно быть сделано один раз за шаг градиента. Это делает обучение ненаправленных графических моделей более сложным, чем обучение ориентированных графических моделей».

Почему мы делаем вывод здесь? Я понимаю, что мы суммируем по всем y, что кажется дорогим, но я не вижу, где мы на самом деле оцениваем какие-либо параметры. В Википедии также говорится о выводе, но только о вычислении условного распределения и необходимости суммирования по всем неуказанным узлам... но... это не то, чем мы здесь занимаемся, не так ли?

В качестве альтернативы, у кого-нибудь есть хорошая интуиция о том, почему вывод в MRF затруднен?

Источники: Глава 19 ML:PP: https://www.cs.ubc.ca/~murphyk/MLbook/pml-print3-ch19.pdf

Конкретный раздел показан ниже

machine-learning markov-random-fields

Mark 05.02.2017 источник

Ответы (1)

arrow_upward
1
arrow_downward

При обучении CRF вы хотите оценить свои параметры, \theta.

Чтобы сделать это, вы можете продифференцировать свою функцию потерь (уравнение 19.38) относительно \theta, установить ее на 0 и найти \theta.

Однако вы не сможете аналитически решить уравнение для \theta, если сделаете это. Однако вы можете минимизировать уравнение 19.38 с помощью градиентного спуска. Поскольку функция потерь выпуклая, гарантируется, что градиентный спуск даст вам глобально оптимальное решение, когда оно сходится.

Уравнение 19.41 — это фактический градиент, который вам нужно вычислить, чтобы иметь возможность выполнять градиентный спуск. Первый член легко (и с точки зрения вычислительной мощности) вычислить, когда вы суммируете наблюдаемые значения y. Однако второй член требует от вас сделать вывод. В этом термине вы не суммируете наблюдаемое значение y, как в первом термине. Вместо этого вам нужно вычислить конфигурацию y (вывод), а затем вычислить значение потенциальной функции при этой конфигурации.

user929404 19.03.2017

Почему вывод в марковских случайных полях сложен?

Ответы (1)

Вопросы по теме