У меня есть сжатые данные LZ4 в HDFS, и я пытаюсь распаковать их в Apache Spark в RDD. Насколько я могу судить, единственный метод в JavaSparkContext
для чтения данных из HDFS — это textFile
, который читает данные только так, как они есть в HDFS. Я встречал статьи на CompressionCodec
, но все они объясняют, как сжать вывод в HDFS, тогда как мне нужно распаковать то, что уже находится в HDFS.
Я новичок в Spark, поэтому заранее извиняюсь, если я пропустил что-то очевидное или если мое концептуальное понимание неверно, но было бы здорово, если бы кто-нибудь мог указать мне правильное направление.
SparkContext.newAPIHadoopFile()
. - person Nick Chammas   schedule 28.07.2014textFile
выполняет распаковку данных, сжатых gzip. Вы пробовали? Разве он не распаковывает ваши файлы прозрачно? - person Daniel Darabos   schedule 29.07.2014textFile
, и нет, данные не распаковываются. - person shoopdelang   schedule 29.07.2014textFile()
действительно распаковывает сжатые данные (я использовал это много раз), но не данные, сжатые с помощью LZ4. Для этого вам понадобитсяnewAPIHadoopFile()
. - person Nick Chammas   schedule 05.08.2014