В части речевого теггера наиболее вероятные теги для данного предложения определяются с помощью HMM по
P(T*) = argmax P(Word/Tag)*P(Tag/TagPrev)
T
Но когда слово «Word» не появилось в обучающем корпусе, P (слово / тег) дает НУЛЬ для всех возможных тегов, это не оставляет места для выбора лучшего.
Я пробовал несколько способов,
1) Назначение небольшой вероятности для всех неизвестных слов, P (UnknownWord / AnyTag) ~ Epsilon ... означает, что это полностью игнорирует P (слово / тег) для неизвестного слова, присваивая постоянную вероятность .. Итак, принятие решения по неизвестному слову по априорной вероятности .. Как и ожидалось, это не дает хорошего результата.
2) Сглаживание Лапласа Я с этим перепутал. Я не знаю, в чем разница между (1) и этим. Мой способ понимания сглаживания Лапласа добавляет постоянную вероятность (лямбда) ко всем неизвестным и известным словам. Таким образом, все неизвестные слова получат постоянную вероятность (долю лямбда), а вероятности известных слов будут одинаковыми, поскольку вероятность всех слов увеличивается на Лямбда. Сглаживание Лапласа такое же, как и предыдущее?
*) Есть ли лучший способ справиться с неизвестными словами?