У меня есть интерфейс и два вычислительных узла
Все имеют одинаковый файл slurm.conf, который заканчивается на (подробности см. На странице https://gist.github.com/avatar-lavventura/46b56cd3a29120594773ae1c8bc4b72c):
NodeName=ebloc2 NodeHostName=ebloc NodeAddr=54.227.62.43 CPUs=1
PartitionName=debug Nodes=ebloc2 Default=YES MaxTime=INFINITE State=UP
NodeName=ebloc4 NodeHostName=ebloc NodeAddr=54.236.173.82 CPUs=1
PartitionName=debug Nodes=ebloc4 Default=YES MaxTime=INFINITE State=UP
slurmctld
: проверяет только информацию о первом записанном узле и не проверяет информацию о втором записанном узле. Когда я пытаюсь отправить задание, я получаю следующую ошибку: он обрабатывает только первый записанный IP-адрес узла, и когда я запускаю sudo slurmd
на первом узле, он работает.
Ошибка:
slurmctld: debug2: slurm_connect failed: Connection refused
slurmctld: debug2: Error connecting slurm stream socket at 54.227.62.43:6821: Connection refused
slurmctld: debug2: slurm_connect failed: Connection refused
slurmctld: debug2: Error connecting slurm stream socket at 54.227.62.43:6821: Connection refused
Проблема: вычислительный узел, который я упомянул в первом порядке, получает задания, а вычислительный узел, который я упомянул во втором порядке, - нет. Как я мог это исправить.
журналы slurmctld (https://gist.github.com/avatar-lavventura/14415ec8c1 )
Спасибо за ваше драгоценное время и помощь.
NodeHostName
slurmctld, выдает ошибку:slurmctld: fatal: Frontend not configured correctly in slurm.conf. See man slurm.conf look for frontendname.
Думаю, мне следует оставить его. @angmo - person alper   schedule 23.06.2017hostname -s
на вычислительных узлах и узле контроллера соответственно - person damienfrancois   schedule 27.06.2017ebloc
, я думаю, это была основная причина ошибки. Насколько я понимаю,hostname -s
из ebloc2 должен возвращатьebloc2
,hostname -s
изebloc4
должен возвращатьebloc4
и так далее, верно? @damienfrancois - person alper   schedule 27.06.2017