Как spark.streaming.blockInterval связан с разделами RDD?

В чем разница между блоками в spark.streaming.blockInterval и разделах RDD в Spark Streaming?

Цитата из документации Spark Streaming 2.2.0:

Для большинства приемников полученные данные объединяются в блоки перед сохранением в памяти Spark. Количество блоков в каждом пакете определяет количество задач, которые будут использоваться для обработки полученных данных в преобразовании, подобном карте.

Количество блоков определяется в соответствии с интервалом между блоками. А также мы можем определить количество разделов rdd. Так что, как мне кажется, они не могут быть такими же. В чем разница между ними?


person Rasika Gayani    schedule 29.12.2017    source источник


Ответы (1)


spark.streaming.blockInterval: Интервал, с которым данные, полученные приемниками Spark Streaming, разбиваются на блоки перед сохранением их в Spark. Это при использовании подхода баз приемника - Подход на основе получателя

И KafkaUtils.createDirectStream() не использовать приемник, поэтому с DStream API Spark Streaming создаст столько разделов RDD, сколько разделов Kafka для использования. - Прямой подход (без получателей)

Это означает, что конфигурация интервала блока не используется в DStream API.

person phoenix    schedule 05.02.2018