NameNode продолжает падать

У меня проблема с отображением статуса NameNode в амбари. Происходит следующее: - NameNode продолжает падать через несколько секунд после того, как я запускаю его через амбари (похоже, что он никогда не поднимается, но процесс запуска проходит успешно);

  • Несмотря на то, что в соответствии с ambari он находится в состоянии DOWN, если я запускаю JPS на сервере, на котором размещен NameNode, он показывает, что служба работает:

    [hdfs@NNVM ~]$ jps
    39395 NameNode
    4463 Jps
    

и я могу правильно получить доступ к пользовательскому интерфейсу NameNode;

  • Я уже перезапустил как namenode, так и ambari-agent вручную, но поведение остается прежним;

  • Эта проблема началась после некоторых тяжелых запросов HBase/Phoenix, которые привели к отказу namenode (не уверен, что это действительно связано, но точно такие же конфигурации работали задолго до этого эпизода);

  • Я копался в течение нескольких часов и не смог найти подробностей об ошибках ни в журналах namenode, ни в журналах амбари-агента, что позволяет мне понять проблему;

Я использую HDP 2.4.0, Ambari 2.2.1.1 и без параметров HA.

Может ли кто-нибудь помочь в этом?

заранее спасибо

Отредактировано: добавить версию амбари.


person ssobreiro    schedule 01.06.2017    source источник
comment
Вы можете запускать какие-либо команды HDFS? hdfs dfs -ls / например?   -  person tk421    schedule 02.06.2017
comment
Привет, я могу. Ответ: [nosuser@NNVM ~]$ hdfs dfs -ls / Найдено 16 элементов drwxrwxrwx - yarn hadoop 0 22.05.2017 15:47 /apps drwxrwx--- - hdfs hdfs 0 03.05.2017 15:10 /home ...   -  person ssobreiro    schedule 02.06.2017
comment
Похоже, NameNode в порядке. Скорее проблема с Амбари.   -  person tk421    schedule 02.06.2017
comment
да, похоже. Я даже остановил namenode вручную и запустил его из амбари, но namenode продолжает работать только в амбари. Любые рекомендации о том, как я могу устранить неполадки в службах амбари?   -  person ssobreiro    schedule 03.06.2017
comment
Вы смотрели https://stackoverflow.com/questions/34590134/ambari-shows-service-as-stopped?   -  person tk421    schedule 04.06.2017
comment
Я уже пробовал убить namenode, проверив через jps, что служба больше не запущена, а затем снова запустить ее через амбари. Это поведение стоит. Я также проверил разрешения hadoop-hdfs-namenode.pid на другие разрешения файлов pid до и после этой процедуры, и это кажется правильным.   -  person ssobreiro    schedule 05.06.2017
comment
На этом этапе вы должны посмотреть журналы амбари. Вы могли видеть [https://issues.apache.org/jira/browse/AMBARI-16448](https://issues.apache.org/jira/browse/AMBARI-16448 - Ambari показывает, что namenode остановлен, но на самом деле namenode все еще работает).   -  person tk421    schedule 06.06.2017
comment
в предоставленной jira переход означает, что NN не удалось запустить и закрыть. По любой такой причине вам необходимо предоставить журналы NN.   -  person Reishin    schedule 06.06.2017
comment
Во-первых, здесь не указана версия Ambari, во-вторых, нет и логов (из команды запуска внутри Ambari, так же, как и из NN). Проблема могла быть в том, что на хосте работающий Namenode запускался не через амбари (а с локальными конфигами), и при попытке запустить Namenode через амбари они конфликтовали и управляли одним крахом   -  person Reishin    schedule 06.06.2017
comment
Привет, Рейшин, я только что отредактировал выше, чтобы добавить версию амбари (2.2.1.1).   -  person ssobreiro    schedule 06.06.2017
comment
Что касается журналов, не могли бы вы сказать мне, что искать в журналах namenode или ambari-server|agent? Я искал любую соответствующую информацию, я не смог найти ни одной ошибки.   -  person ssobreiro    schedule 06.06.2017