Lucene: вывод обработанных данных путем добавления к ним информации IR

Мне нужно обработать базу данных, чтобы добавить метаинформацию, такую ​​как веса td-idf, в термины документов.

Последовательно мне нужно создать пары документов с мерами сходства, такими как косинусное сходство td-idf и т. д.

Я планирую использовать Apache Lucene для этой задачи. На самом деле я не заинтересован в поиске или выполнении запроса, а в индексировании данных и их обработке для создания выходного файла с вышеупомянутыми парами документов и оценками сходства. Следующим шагом будет передача этих результатов классификатору Weka.

Могу ли я легко сделать это с Lucene? Спасибо


person aneuryzm    schedule 22.02.2011    source источник


Ответы (1)


Попробуйте Интеграция Apache Mahout с Apache Lucene и Solr. Замените места, где написано «Магаут» на «Века». Удачи.

person Yuval F    schedule 23.02.2011