nGrams в apache mahout

Я запускаю алгоритм наивного байесовского классификатора через apache mahout. У нас есть возможность настроить размер грамма во время обучения и запуска экземпляра алгоритма.

Изменение моего размера n-Gram с 1 на 2 резко меняет результирующую классификацию. Почему это происходит? Как размер n-грамм сильно влияет на результат?

bayesian n-gram mahout

Greenhorn 20.12.2011 источник

Ответы (1)

arrow_upward
6
arrow_downward

1-грамм - это слова. 2-граммы (или биграммы) — это пары слов. Это похоже на классификацию документов на основе существования «Соединенных Штатов» и «Штатов» или «Соединенных Штатов». Использование биграмм может иметь некоторые последствия для места и производительности, но, вероятно, даст лучшие результаты, чем 1 грамм.

Sean Owen 20.12.2011

comment

Означает ли это, что ngrams прямо пропорциональны точности и обратно пропорциональны масштабируемости? - Greenhorn; 20.12.2011

comment

Нет, все не так просто. Точность будет зависеть от вашего корпуса. Например, я считаю, что биграммы более полезны для классификации документов с большим количеством значимых фраз или имен собственных, таких как юридические документы. Масштабируемость — это отдельный вопрос, так как вы можете решить, сколько n-грамм нужно учитывать отдельно. - Sean Owen; 20.12.2011

nGrams в apache mahout

Ответы (1)

Вопросы по теме