Я выполняю задание в кластере Sun Grid Engine (теперь известном как Oracle Grid Engine). Чтобы увидеть, не замедляется ли моя работа из-за перегрузки узла, я попытался проверить состояние узла:
$ qstat -l hostname=hnode03 -f
queuename qtype resv/used/tot. load_avg arch states
---------------------------------------------------------------------------------
[email protected] BP 0/0/0 103.41 lx24-amd64
---------------------------------------------------------------------------------
[email protected] BP 0/37/40 103.41 lx24-amd64
977530 0.76963 runJob1 userme r 09/13/2013 17:53:26 2
---------------------------------------------------------------------------------
[email protected] BP 0/24/32 103.41 lx24-amd64
---------------------------------------------------------------------------------
[email protected] B 0/0/0 103.41 lx24-amd64
и
$ qhost -h hnode03
HOSTNAME ARCH NCPU LOAD MEMTOT MEMUSE SWAPTO SWAPUS
-------------------------------------------------------------------------------
global - - - - - - -
hnode03 lx24-amd64 64 103.4 504.8G 122.9G 16.0G 58.0M
Теперь load_avg
равно 103,41, а NCPU
всего 64. Это когда-нибудь должно произойти? Используют ли некоторые задания ЦП, а не назначенные им слоты?
Обновление: в ответ на запросы конфигурации загружаются на http://pastebin.com/hLnJBetS.
qconf -se hnode03
? Кроме того, будут полезныqconf -sq highmem.q
иqconf -sq threaded.q
, а такжеqconf -sp {pe}
для любых параллельных сред, которые могут быть настроены в threaded.q. - person jlp   schedule 19.09.2013