Тайм-аут Condor для простаивающих заданий

Я запускаю задания в кластере кондор, но некоторые из них зависают в состоянии простоя и, кажется, никогда не запускаются, не говоря уже о завершении. Если не считать ручного выполнения condor_wait -wait n logfile, а затем condor_rm, есть ли более изящный (и автоматический, встроенный) способ завершения зависшего задания?

И наоборот, поскольку эти задания находятся в дагмане, есть ли способ тайм-аута задания в дагмане, чтобы можно было запустить более поздние задания?


person user1418642    schedule 26.05.2012    source источник


Ответы (1)


Вот два способа автоматического удаления задания после слишком долгого бездействия (в данном примере 24 часа).

  1. Поместите следующее в файл отправки для задания:

    Periodic_remove = JobStatus == 1 && CurrentTime-EnteredCurrentStatus > 3600*24

  2. Или поместите следующее в файл конфигурации кондора на машине отправки:

    SYSTEM_PERIODIC_REMOVE = JobStatus == 1 && CurrentTime-EnteredCurrentStatus > 3600*24

Конечно, было бы лучше понять, почему задания остаются в состоянии простоя. Для этого вам может пригодиться condor_q -analyze jobid.

person user2313013    schedule 23.04.2013