Кто-нибудь успешно протестировал эту функцию на Cuda4? Кажется, я не могу заставить его работать правильно, не уверен, что это ошибка в моем коде или функция еще не полностью реализована.
Например, я хочу сделать вызов ядра после копирования памяти с 1 GPU на другой. Поток 0, mem0 создается на gpu0, поток 1, mem1 создается на gpu1. Оба Ферми Тесла (C2070)
cudaMemcpyAsync( mem1, mem0, size, cudaMemcpyDefault, stream0 );
cudaEventRecord(P2Pevent, stream0);
cudaStreamWaitEvent(stream1, P2Pevent, 0);
cudaKernel<<<block,thread,0,stream1>>>(mem1);
Иногда кажется, что память еще не готова для ядра, поэтому результат неверный. Если я добавлю cudaDeviceSynchronize на Gpu0, все будет работать нормально.
Спасибо