Ограничения трехдиагонального решателя cuSparse?

Я решил переписать один из моих серийных кодов на CUDA. Большая часть кода предназначена для инвертирования большой трехдиагональной матрицы для различных правых частей. Затем я наткнулся на cusparseSgtsv из библиотеки cuSparse. У меня есть пример кода для работы с маленькими матрицами, но когда размер матрицы превышает 1024, ничего, кроме nan. Я что-то пропустил в документации?

Вот пример кода. Для N=1024 код работает нормально. Для N=1025 это nan до упора.

#include<iostream>                                                                                                                              
#include<cuda_runtime.h>                                                                                                                        
#include<cusparse_v2.h>                                                                                                                         

using namespace std;

__global__ void assignMat(float *a,float *b,float *c,float *r)
{                                                             
    int tid=threadIdx.x+blockDim.x*blockIdx.x;            

    a[tid]=0;
    b[tid]=1;
    c[tid]=0;
    r[tid]=tid;
}

int main()
{
    float *d_a,*d_b,*d_c,*d_r;
    float *h_r;
    int N=1025;
    cusparseStatus_t status;
    cusparseHandle_t handle=0;

    status=cusparseCreate(&handle);

    h_r=(float *)malloc(N*sizeof(float));
    cudaMalloc((void **)&d_a,N*sizeof(float));
    cudaMalloc((void **)&d_b,N*sizeof(float));
    cudaMalloc((void **)&d_c,N*sizeof(float));
    cudaMalloc((void **)&d_r,N*sizeof(float));

    assignMat<<<1,N>>>(d_a,d_b,d_c,d_r);
    status=cusparseSgtsv(handle,N,1,d_a,d_b,d_c,d_r,N);
    if (status != CUSPARSE_STATUS_SUCCESS)
    {
            cout << status << endl;
    }
    else
    {
            cudaMemcpy(h_r,d_r,N*sizeof(float),cudaMemcpyDeviceToHost);
            for (int i=0;i<N;i++)
                    cout << i << " " << h_r[i] << endl;
    }

    free(h_r);
    cudaFree(d_a);cudaFree(d_b);cudaFree(d_c);cudaFree(d_r);
}

cuda matrix-inverse

Simon 01.05.2018 источник

Ответы (1)

arrow_upward
0
arrow_downward

Я что-то пропустил в документации?

Нет в документации cuSparse, нет.

Однако существует жесткое ограничение на количество потоков на блок, поэтому ваше ядро assignMat перестает работать, как только N > 1024. Вы можете прочитать о том, как выбрать допустимые параметры запуска ядра здесь. Если бы ваш код содержал проверку ошибок или вы запускали программу с помощью cuda-memcheck, вы, вероятно, смогли бы обнаружить проблему. себя во время выполнения.

Community 01.05.2018

comment

Да, конечно. Иногда простые вещи сбивают нас с толку больше всего (или меня во всяком случае) - Simon; 01.05.2018

Ограничения трехдиагонального решателя cuSparse?

Ответы (1)

Вопросы по теме