Где найти значения перехода алгоритма Витерби для обработки естественного языка?

Я только что посмотрел видео, где они использовали алгоритм Витерби, чтобы определить, предназначены ли определенные слова в предложении как существительные/глаголы/прилагательные и т. д., они использовали вероятности перехода и эмиссии, например вероятность того, что слово «время» используется в качестве глагол известен (испускание) и вероятность того, что существительное перейдет в глагол (переход).

http://www.youtube.com/watch?v=O_q82UMtjoM&feature=relmfu (Видео)

Как мне найти хороший набор данных о вероятностях перехода и выбросов для этого варианта использования?

Или ДАЖЕ только один пример со всеми отображаемыми вероятностями, я хочу использовать реалистичные числа в демонстрации.


person Community    schedule 13.04.2012    source источник


Ответы (1)


Обычно реализации скрытых марковских моделей (HMM) могут выполнять не только алгоритм Витерби для тегирования, но и алгоритм, используемый для обучения модели (например, алгоритм Баума-Уэлча). . Тогда способ получения модели (т. cis.upenn.edu/~treebank/" rel="nofollow">PennTreebank).

Я не знаю ни одной свободно доступной готовой реализации POS-тегера на основе HMM, которая поставляется с предварительно обученной моделью, которую можно легко проверить. Однако подход, который во многом похож на HMM, — это условное случайное поле (CRF). CRFTagger, созданный в Университете Тохоку, Япония, содержит предварительно обученную модель для английского языка (см. файл model/model.txt после скачивания и распаковки). Файл удобочитаем, но для понимания деталей формата вам, возможно, придется связаться с авторами.

person jogojapan    schedule 13.04.2012