У меня есть много файлов в HDFS, все они представляют собой zip-файл с одним файлом CSV внутри него. Я пытаюсь распаковать файлы, чтобы запустить для них потоковую передачу.
Я старался:
hadoop jar /usr/lib/hadoop-mapreduce/hadoop-streaming.jar \
-D mapred.reduce.tasks=0 \
-mapper /bin/zcat -reducer /bin/cat \
-input /path/to/files/ \
-output /path/to/output
Однако я получаю сообщение об ошибке (subprocess failed with code 1
). Я также пытался запустить один файл с той же ошибкой.
Любой совет?