Определите идентификатор документа на выводе Mahout LDA

Я успешно запустил mahout lda и отобразил вывод с помощью команды mahout ldatopics.

Например, мои темы - наука и спорт. тогда вывод будет таким: тема 0 баскетбол, игра, бейсбол тема 1 исследование, учеба, философия

Теперь мой вопрос заключается в том, как я могу определить группу или кластер отдельной статьи. Есть ли идентификационный номер или какое-то отслеживание, чтобы каждая новая статья, которую я добавляю, группировалась или добавлялась в определенный кластер/тему.

Если у меня уже есть кластер, что делать дальше?

Спасибо

Pedro Pi 25.02.2011 источник

Ответы (1)

arrow_upward
0
arrow_downward

Я просматривал исходный код и не могу найти упоминания о тета-матрице для расчета вероятности тем, заданных в документе, и поскольку нет входных данных для альфа-значения для оценки тем в документе, а класс LDAState имеет метод logProbWordGivenTopic(int, int), но ничего похожего на getProbTopicGivenDocument() Я могу только предположить, что реализация LDA mahout не связана с обнаружением распределения тем для конкретных документов. Я хотел бы ошибаться, хотя, если кто-то другой знает лучше.

Kevin 03.03.2011

comment

В качестве обновления проверьте: issues.apache.org/jira/browse/ Похоже, это было исправлено в более поздних версиях - Kevin; 03.03.2011

Определите идентификатор документа на выводе Mahout LDA

Ответы (1)

Вопросы по теме