Мне нужно реализовать умножение матриц на графическом процессоре с CUDA для больших матриц. Размер каждой матрицы в отдельности больше, чем память графического процессора. Поэтому я думаю, что мне нужен алгоритм, чтобы делать это эффективно. Я поискал в Интернете, но не нашел. Кто-нибудь может дать мне название или ссылку на такие алгоритмы.
Спасибо
[A0;A1] * [B0 B1] = [A0*B0 A0*B1; A1*B0 A1*B1]
? Возможно, это хорошее начало. - person kangshiyin   schedule 28.01.2013