Определите идентификатор документа на выводе Mahout LDA

Я успешно запустил mahout lda и отобразил вывод с помощью команды mahout ldatopics.

Например, мои темы - наука и спорт. тогда вывод будет таким: тема 0 баскетбол, игра, бейсбол тема 1 исследование, учеба, философия

Теперь мой вопрос заключается в том, как я могу определить группу или кластер отдельной статьи. Есть ли идентификационный номер или какое-то отслеживание, чтобы каждая новая статья, которую я добавляю, группировалась или добавлялась в определенный кластер/тему.

Если у меня уже есть кластер, что делать дальше?

Спасибо


person Pedro Pi    schedule 25.02.2011    source источник


Ответы (1)


Я просматривал исходный код и не могу найти упоминания о тета-матрице для расчета вероятности тем, заданных в документе, и поскольку нет входных данных для альфа-значения для оценки тем в документе, а класс LDAState имеет метод logProbWordGivenTopic(int, int), но ничего похожего на getProbTopicGivenDocument() Я могу только предположить, что реализация LDA mahout не связана с обнаружением распределения тем для конкретных документов. Я хотел бы ошибаться, хотя, если кто-то другой знает лучше.

person Kevin    schedule 03.03.2011
comment
В качестве обновления проверьте: issues.apache.org/jira/browse/ Похоже, это было исправлено в более поздних версиях - person Kevin; 03.03.2011