в spark 1.6.1 благодаря этому методу Как преобразовать RDD в DStream в JAVA? мне удалось создать поток в очереди из текстовых файлов следующим образом:
List<JavaRDD<String>> inputRdds = Arrays.stream(inputDirFile.listFiles((file) -> {
return file.getName().matches(properties.getInputFileRule());
})).map(file -> {
return sc().textFile(file.getAbsolutePath());
}).collect(Collectors.toList());
Queue<JavaRDD<String>> queue = new LinkedList<JavaRDD<String>>(inputRdds);
JavaDStream<String> inputForCheckpointAsStream = jsc().queueStream(queue, true);
вот так я получил поток, но только один файл на партию. Файлы содержат данные JSON. Есть ли способ сделать поток в очереди (что-то вроде метода выше) также в spark2 с SparkSession и наборами данных без использования файлов паркета?
sc()
- контекст искры Javajsc()
— контекст потоковой передачи Java