Найти путь к файлу jar в GCP

Найдите путь к jar-файлу hadoop-streaming-1.2.1.jar в файловой платформе Google.

https://github.com/devangpatel01/TF-IDF-implementation-using-map-reduce-Hadoop-python-

Я пытаюсь запустить этот mapreduce на GCP с помощью Hadoop, но не могу найти путь к hadoop-streaming-1.2.1.jar. Я попытался загрузить файл jar вручную и загрузить его в hadoop, а затем запустить mapper1.py. Но я получаю сообщение об ошибке, говоря, что путь неверен. Вышеупомянутая программа была запущена на локальной машине. Как отредактировать команду, чтобы запустить ее на GCP?

jar-файла /home/kirthyodackal/hadoop-streaming-1.2.1.jar -input hdfs://cluster-29-m/input_prgs/input_prgs/input1/000000_0 -output hdfs://cluster-29-m/input_prgs/input_prgs /output1 -mapper hdfs://cluster-29-m/input_prgs/input_prgs/mapper1.py -reducer hdfs://cluster-29-m/input_prgs/input_prgs/reducer1.py


person Kirthy Francis    schedule 03.11.2019    source источник
comment
Вы используете ДатаПрок? это почти управляемая служба, вы можете войти в vms, но вы должны отправлять задания, как указано в документах: cloud.google.com/dataproc/docs/quickstarts/ поле jarFileUris используется для ссылки на локальные jar-файлы в главной виртуальной машине.   -  person Pievis    schedule 04.11.2019
comment
Да, но я использовал другую функцию преобразования-редуктора из github.com/SatishUC15/TFIDF -HadoopMapReduce#tfidf-hadoop, и все заработало. Я не совсем знаком с отправкой заданий, так как только начал использовать Dataproc. Спасибо.   -  person Kirthy Francis    schedule 14.11.2019


Ответы (1)


Я использовал другую программу Mapper-Reducer и смог запустить файл mapreduce. Я использовал код из https://github.com/SatishUC15/TFIDF-HadoopMapReduce#tfidf-hadoop и выполните следующие команды в моем кластере GCP.

> hadoop jar /usr/lib/hadoop-mapreduce/hadoop-streaming.jar -file /home/kirthyodackal/MapperPhaseOne.py /home/kirthyodackal/ReducerPhaseOne.py -mapper "python MapperPhaseOne.py" -reducer "python ReducerPhaseOne.py" -input hdfs://cluster-3299-m/mapinput/inputfile -output hdfs://cluster-3299-m/mappred1

> hadoop jar /usr/lib/hadoop-mapreduce/hadoop-streaming.jar -file /home/kirthyodackal/MapperPhaseTwo.py /home/kirthyodackal/ReducerPhaseTwo.py -mapper "python MapperPhaseTwo.py" -reducer "python ReducerPhaseTwo.py" -input hdfs://cluster-3299-m/mappred1/part-00000 hdfs://cluster-3299-m/mappred1/part-00001 hdfs://cluster-3299-m/mappred1/part-00002 hdfs://cluster-3299-m/mappred1/part-00003 hdfs://cluster-3299-m/mappred1/part-00004  -output hdfs://cluster-3299-m/mappred2

> hadoop jar /usr/lib/hadoop-mapreduce/hadoop-streaming.jar -file /home/kirthyodackal/MapperPhaseThree.py /home/kirthyodackal/ReducerPhaseThree.py -mapper "python MapperPhaseThree.py" -reducer "python ReducerPhaseThree.py" -input hdfs://cluster-3299-m/mappred2/part-00000 hdfs://cluster-3299-m/mappred2/part-00001 hdfs://cluster-3299-m/mappred2/part-00002 hdfs://cluster-3299-m/mappred2/part-00003 hdfs://cluster-3299-m/mappred2/part-00004  -output hdfs://cluster-3299-m/mappredf

По следующей ссылке рассказывается, как я работал с MapReduce на GCP. https://github.com/kirthy21/Data-Analysis-Stack-Exchange-Hadoop-Pig-Hive-MapReduce-TFIDF

person Kirthy Francis    schedule 14.11.2019