Ниже я завершаю процесс установки. Это хорошо для экспериментального НЕ производства вообще.
Что тебе необходимо сделать
- Установить Java
- Скачать Hadoop
- Установить среду
- Изменить XML-код Hadoop
- старт-dfs.sh
- start-yarn.sh
Если успех, вы увидите
- localhost:8088 → См. экран значков Hadoop
- localhost:9870 → См. экран состояния кластера
Установить Java
Обновите и найдите новый JDK.
Если вы не знакомы с Java, игнорируйте этот термин, нам нужен только JDK.
sudo apt update sudo apt-cache search openjdk
Последняя LTS — 11, поэтому я установлю 11.
sudo apt install openjdk-11-jdk java -version javac -version
Скачать Hadoop
Посетите ссылку ниже. В командной строке вам понадобится wget <link>
для его загрузки. Извлеките его в свой домашний каталог.
Выберите более новую версию. Вот 3.3.1
, затем выберите tar.gz
Настройка среды
Установка переменной для Hadoop, а также пути для удобного вызова команды Hadoop в .bashrc
export HADOOP_HOME=/home/hadoop/hadoop-3.3.1 export HADOOP_INSTALL=$HADOOP_HOME export HADOOP_MAPRED_HOME=$HADOOP_HOME export HADOOP_COMMON_HOME=$HADOOP_HOME export HADOOP_HDFS_HOME=$HADOOP_HOME export YARN_HOME=$HADOOP_HOME export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin export HADOOP_OPTS="$HADOOP_OPTS -Djava.library.path=$HADOOP_HOME/lib/native" export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64/
На этом этапе вы должны иметь возможность вызывать следующий двоичный файл из любого места.
- хауп
- hdfs
Отредактируйте XML-код Hadoop и запустите
Я думаю, что страница Hadoop уже хороша. Ссылка ниже.
Небольшой обзор облегчит чтение
- Hadoop будет
ssh
на локальном хосте, поэтому вам нужно будет настроить ключ SSH. - Вам нужен режим псевдораспределения
- Скопируйте и вставьте XML из руководства Hadoop
- Запустить ДФС
- Начать пряжу
Распространенная ошибка: JAVE_HOME не найден
JAVA_HOME необходимо установить в
etc/hadoop/hadoop-env.sh
НЕ в
.bashrc
!
Распространенная ошибка 2: Не удается запустить YARN
Ошибка при start-yarn.sh
resourcemanager is running as process 48888. Stop it first and ensure /tmp/hadoop-hadoop-resourcemanager.pid file is empty before retry
Диспетчер ресурсов все еще работает, несмотря на stop-dfs.sh
, поэтому вам нужно остановить ВСЕ
stop-all.sh
Примечание
Просто оставьте процесс таким, как будто нам не нужно запускать его с systemctl
или service
, как мы это обычно делаем.
Проверьте страницу статуса
Наконец, вы должны увидеть результат, как показано ниже.
Несколько советов, если вы развернете его на сервере.
Используйте ssh
, чтобы перенаправить его на локальный хост, а затем откройте его в своем браузере.
ssh -L 9870:localhost:9870 -nNT ubuntu@<your-server-ip> ssh -L 8088:localhost:8088 -nNT ubuntu@<your-server-ip>
Надеюсь это поможет !