Я считаю, что этот формат файла - внутренняя вещь, которая используется Spark для хранения значений для каждого раздела. Если вы используете какое-то хранилище BLOB-объектов (извините, я пользователь Windows), вы все равно должны иметь возможность загружать файлы обратно из места вывода, а затем снова работать с ними, используя DataFrame.
Я пытаюсь сказать, что хотя вы не очень много говорите в именах файлов, поскольку это то, что Spark делает сама, это не должно мешать вам создавать собственный рабочий процесс, в котором вы собираете материал, в котором вы бы заглянули в файлы для некоторых отметка времени (я предполагаю, что в содержимом выходного файла есть какой-то столбец DataTime, если нет, может быть хорошей идеей добавить его)
Вот как я буду действовать, сделав отметку времени частью содержимого файла, а затем вы можете использовать фактическое содержимое файла (как я говорю, читать в DataFrame, скажем), а затем просто использовать обычные операции DataFrame / Map с загруженными выходными данными
Я как бы грубо говорю об этом здесь.
person
sacha barber
schedule
27.06.2018