Установка Hadoop на Ubuntu 20.04

Ниже я завершаю процесс установки. Это хорошо для экспериментального НЕ производства вообще.

Что тебе необходимо сделать

Установить Java
Скачать Hadoop
Установить среду
Изменить XML-код Hadoop
старт-dfs.sh
start-yarn.sh

Если успех, вы увидите

localhost:8088 → См. экран значков Hadoop
localhost:9870 → См. экран состояния кластера

Установить Java

Обновите и найдите новый JDK.

Если вы не знакомы с Java, игнорируйте этот термин, нам нужен только JDK.

sudo apt update
sudo apt-cache search openjdk

Последняя LTS — 11, поэтому я установлю 11.

sudo apt install openjdk-11-jdk
java -version
javac -version

Скачать Hadoop

Посетите ссылку ниже. В командной строке вам понадобится wget <link> для его загрузки. Извлеките его в свой домашний каталог.

Выберите более новую версию. Вот 3.3.1, затем выберите tar.gz

Загрузки Apache
Мы рекомендуем следующий сайт для загрузки: https://dlcdn.apache.org/hadoop/common/ Альтернативные места загрузки…www. apache.org

Настройка среды

Установка переменной для Hadoop, а также пути для удобного вызова команды Hadoop в .bashrc

export HADOOP_HOME=/home/hadoop/hadoop-3.3.1
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
export HADOOP_OPTS="$HADOOP_OPTS -Djava.library.path=$HADOOP_HOME/lib/native"
export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64/

На этом этапе вы должны иметь возможность вызывать следующий двоичный файл из любого места.

хауп
hdfs

Отредактируйте XML-код Hadoop и запустите

Я думаю, что страница Hadoop уже хороша. Ссылка ниже.

Небольшой обзор облегчит чтение

Hadoop будет ssh на локальном хосте, поэтому вам нужно будет настроить ключ SSH.
Вам нужен режим псевдораспределения
Скопируйте и вставьте XML из руководства Hadoop
Запустить ДФС
Начать пряжу

Hadoop: настройка кластера с одним узлом.
В этом документе описывается, как установить и настроить установку Hadoop с одним узлом, чтобы вы могли быстро выполнять… hadoop.apache.org

Распространенная ошибка: JAVE_HOME не найден

JAVA_HOME необходимо установить в

etc/hadoop/hadoop-env.sh

НЕ в .bashrc !

Распространенная ошибка 2: Не удается запустить YARN

Ошибка при start-yarn.sh

resourcemanager is running as process 48888. Stop it first and ensure /tmp/hadoop-hadoop-resourcemanager.pid file is empty before retry

Диспетчер ресурсов все еще работает, несмотря на stop-dfs.sh, поэтому вам нужно остановить ВСЕ

stop-all.sh

Примечание

Просто оставьте процесс таким, как будто нам не нужно запускать его с systemctl или service, как мы это обычно делаем.

Проверьте страницу статуса

Наконец, вы должны увидеть результат, как показано ниже.

Несколько советов, если вы развернете его на сервере.

Используйте ssh, чтобы перенаправить его на локальный хост, а затем откройте его в своем браузере.

ssh -L 9870:localhost:9870 -nNT ubuntu@<your-server-ip>
ssh -L 8088:localhost:8088 -nNT ubuntu@<your-server-ip>

Надеюсь это поможет !