Использование контрольной точки MPI

Я хотел бы воспользоваться функцией контрольной точки MPI, чтобы сохранить свою работу. Согласно предложению на https://wiki.mpich.org/mpich/index.php/Checkpointing

Я должен иметь возможность отправить SIGUSR1 в mpiexec (в моем случае я отправляю его в mpirun), чтобы активировать контрольную точку. Однако, когда я это делаю, я не вижу ни одного файла, сохраненного в моем каталоге контрольной точки, который я указал с помощью -ckpoint-prefix.

Вот мой вывод mpirun -info HYDRA build details: Version: 4.1 Update 1 Release Date: 20130522 Process Manager: pmi Bootstrap servers available: ssh rsh fork slurm srun ll llspawn.stdio lsf blaunch sge qrsh persist jmi Resource management kernels available: slurm srun ll llspawn.stdio lsf blaunch sge qrsh pbs Checkpointing libraries available: blcr Demux engines available: poll select

Моя командная строка:

mpirun -ckpointlib blcr -ckpoint-prefix /home/user/temp/ckpoint -ckpoint-interval 1800 -np 274 $PROGPATH/myapp

То, как я отправляю сигнал, это kill -s USR1 1900, 1900 - это pid miprun. Всякий раз, когда я посылаю сигнал, программа просто завершается. Хотя без сбоев. У кого-нибудь есть опыт работы с КПП MPI?


person Max Li    schedule 04.04.2016    source источник


Ответы (1)


Думаю, я понял это. Я отправляю USR1 в mpirun, но вместо этого я должен отправить его в mpiexec.hydra. Хотя в какой-то онлайн-статье говорится, что mpirun и mpiexec — это одно и то же.

person Max Li    schedule 04.04.2016