Я хотел бы воспользоваться функцией контрольной точки MPI, чтобы сохранить свою работу. Согласно предложению на https://wiki.mpich.org/mpich/index.php/Checkpointing
Я должен иметь возможность отправить SIGUSR1 в mpiexec (в моем случае я отправляю его в mpirun), чтобы активировать контрольную точку. Однако, когда я это делаю, я не вижу ни одного файла, сохраненного в моем каталоге контрольной точки, который я указал с помощью -ckpoint-prefix.
Вот мой вывод mpirun -info
HYDRA build details:
Version: 4.1 Update 1
Release Date: 20130522
Process Manager: pmi
Bootstrap servers available: ssh rsh fork slurm srun ll llspawn.stdio lsf blaunch sge qrsh persist jmi
Resource management kernels available: slurm srun ll llspawn.stdio lsf blaunch sge qrsh pbs
Checkpointing libraries available: blcr
Demux engines available: poll select
Моя командная строка:
mpirun -ckpointlib blcr -ckpoint-prefix /home/user/temp/ckpoint -ckpoint-interval 1800 -np 274 $PROGPATH/myapp
То, как я отправляю сигнал, это kill -s USR1 1900
, 1900 - это pid miprun. Всякий раз, когда я посылаю сигнал, программа просто завершается. Хотя без сбоев. У кого-нибудь есть опыт работы с КПП MPI?