nGrams в apache mahout

Я запускаю алгоритм наивного байесовского классификатора через apache mahout. У нас есть возможность настроить размер грамма во время обучения и запуска экземпляра алгоритма.

Изменение моего размера n-Gram с 1 на 2 резко меняет результирующую классификацию. Почему это происходит? Как размер n-грамм сильно влияет на результат?


person Greenhorn    schedule 20.12.2011    source источник


Ответы (1)


1-грамм - это слова. 2-граммы (или биграммы) — это пары слов. Это похоже на классификацию документов на основе существования «Соединенных Штатов» и «Штатов» или «Соединенных Штатов». Использование биграмм может иметь некоторые последствия для места и производительности, но, вероятно, даст лучшие результаты, чем 1 грамм.

person Sean Owen    schedule 20.12.2011
comment
Означает ли это, что ngrams прямо пропорциональны точности и обратно пропорциональны масштабируемости? - person Greenhorn; 20.12.2011
comment
Нет, все не так просто. Точность будет зависеть от вашего корпуса. Например, я считаю, что биграммы более полезны для классификации документов с большим количеством значимых фраз или имен собственных, таких как юридические документы. Масштабируемость — это отдельный вопрос, так как вы можете решить, сколько n-грамм нужно учитывать отдельно. - person Sean Owen; 20.12.2011