Мне нужно обработать базу данных, чтобы добавить метаинформацию, такую как веса td-idf, в термины документов.
Последовательно мне нужно создать пары документов с мерами сходства, такими как косинусное сходство td-idf и т. д.
Я планирую использовать Apache Lucene для этой задачи. На самом деле я не заинтересован в поиске или выполнении запроса, а в индексировании данных и их обработке для создания выходного файла с вышеупомянутыми парами документов и оценками сходства. Следующим шагом будет передача этих результатов классификатору Weka.
Могу ли я легко сделать это с Lucene? Спасибо