Я пытаюсь работать с Cascading для создания и выполнения сложных рабочих процессов обработки данных в локальном кластере Hadoop.
Я хочу создать вектор TFIDF, чтобы применить к нему алгоритмы машинного обучения, такие как NaiveBayes, с помощью среды Apache Spark.
Проблема в том, что после того, как я создаю банку и запускаю ее с помощью следующих команд, программа зависает. Вот файл журнала.
Исходники можно найти здесь. Соответствующий исходный код находится в части 6.
Спасибо!