Cuda CUBLAS的同步_Cuda_Cublas - Fatal编程技术网

Cuda CUBLAS的同步

cuda

Cuda CUBLAS的同步,cuda,cublas,Cuda,Cublas,CUBLAS文档提到，在读取标量结果之前，我们需要同步：此外，还有一些返回标量结果的函数，如amax（）、amin、asum（）、rotg（）、rotmg（）、dot（）和nrm2（），通过主机或设备上的引用返回结果值。请注意，即使这些函数立即返回，类似于矩阵和向量结果，但只有在GPU上完成例程的执行时，标量结果才准备就绪。这需要正确的同步，以便从主机读取结果。” 这是否意味着我们应该在从主机读取标量结果之前始终进行同步，即使我们只使用单个流？我一直在寻找关于NVIDIA的CUDA文档的示例，

CUBLAS文档提到，在读取标量结果之前，我们需要同步：

此外，还有一些返回标量结果的函数，如amax（）、amin、asum（）、rotg（）、rotmg（）、dot（）和nrm2（），通过主机或设备上的引用返回结果值。请注意，即使这些函数立即返回，类似于矩阵和向量结果，但只有在GPU上完成例程的执行时，标量结果才准备就绪。这需要正确的同步，以便从主机读取结果。”

这是否意味着我们应该在从主机读取标量结果之前始终进行同步，即使我们只使用单个流？我一直在寻找关于NVIDIA的CUDA文档的示例，但没有找到

但在NVIDIA提供的代码中，有以下代码

while (r1 > tol*tol && k <= max_iter)
{
    if (k > 1)
    {
        b = r1 / r0;
        cublasStatus = cublasSscal(cublasHandle, N, &b, d_p, 1);
        cublasStatus = cublasSaxpy(cublasHandle, N, &alpha, d_r, 1, d_p, 1);
    }
    else
    {
        cublasStatus = cublasScopy(cublasHandle, N, d_r, 1, d_p, 1);
    }

    cusparseScsrmv(cusparseHandle, CUSPARSE_OPERATION_NON_TRANSPOSE, N, N, nz, &alpha, descr, d_val, d_row, d_col, d_p, &beta, d_Ax);
    cublasStatus = cublasSdot(cublasHandle, N, d_p, 1, d_Ax, 1, &dot);
    a = r1 / dot;

    cublasStatus = cublasSaxpy(cublasHandle, N, &a, d_p, 1, d_x, 1);
    na = -a;
    cublasStatus = cublasSaxpy(cublasHandle, N, &na, d_Ax, 1, d_r, 1);

    r0 = r1;
    cublasStatus = cublasSdot(cublasHandle, N, d_r, 1, d_r, 1, &r1);
    cudaThreadSynchronize();
    printf("iteration = %3d, residual = %e\n", k, sqrt(r1));
    k++;
}

while（r1>tol*tol&k1）
{
b=r1/r0；
cubrasstatus=cubrassscal（cublasHandle，N，&b，d_p，1）；
cubrasstatus=cubrassaxpy（cublasHandle，N，&alpha，d_r，1，d_p，1）；
}
其他的
{
cubllasstatus=cubllasscopy（cublasHandle，N，d_r，1，d_p，1）；
}
cusparseScsrmv（cusparseHandle、CUSPARSE_操作、非转置、N、N和alpha、descr、d_val、d_行、d_列、d_p和beta、d_Ax）；
cublasStatus=cublasSdot（cublasHandle，N，d_p，1，d_Ax，1，&dot）；
a=r1/点；
cublasStatus=cublasaxpy（cublasHandle，N，&a，d_p，1，d_x，1）；
na=-a；
cublasStatus=cublasSaxpy（cublasHandle，N，&na，d_Ax，1，d_r，1）；
r0=r1；
cublasStatus=cublasSdot（cublasHandle，N，d_r，1，d_r，1和r1）；
cudaThreadSynchronize（）；
printf（“迭代=%3d，剩余=%e\n”，k，sqrt（r1））；
k++；
}

在while循环结束之前有一个cudaThreadSynchronize（）调用。这是给cublasSdot的电话吗？但是在循环中有两个cublasSdot调用。为什么在第二个cublasSdot之后有一个cudaThreadSynchronize（），而在第一个cublasSdot之后没有

编辑：为了查看发生了什么，我使用了以下代码来比较有无同步的点积结果

int main(int argc, char **argv)
{
    /* Generate a large vector */
    int N = 1024 * 1024 * 512;

    double *x_cpu = (double *)malloc(sizeof(double)*N);
    for (int i = 0; i < N; i++)
    {
        x_cpu[i] = double(rand()) / RAND_MAX;
    }


    double *x_gpu;
    cudaMalloc((void **)&x_gpu, N*sizeof(double));
    cudaMemcpy(x_gpu, x_cpu, N*sizeof(double), cudaMemcpyHostToDevice);

    /* Get handle to the CUBLAS context */
    cublasHandle_t cublasHandle = 0;
    cublasStatus_t cublasStatus;
    cublasStatus = cublasCreate(&cublasHandle);

    int M = 1000;
    std::vector<double> x_dot_vec(M, 0.0);
    double *x_dot_ptr = &(x_dot_vec[0]);

    std::cout << "Begin Launching CUBLAS........" << std::endl;

    for(int j = 0; j < M; j++){
        cublasDdot(cublasHandle, N, x_gpu, 1, x_gpu, 1, x_dot_ptr + j);
    }

    std::cout << "End Launching CUBLAS........." << std::endl;

    double old_value = x_dot_vec.back();
    cudaDeviceSynchronize();
    double new_value = x_dot_vec.back();
    std::cout << "Old Value: " << old_value << ",   New Value: " << new_value << std::endl;

    free(x_cpu);
    cudaFree(x_gpu);

    return 0;
}

int main（int argc，char**argv）
{
/*生成一个大向量*/
int N=1024*1024*512；
double*x_cpu=（double*）malloc（sizeof（double）*N）；
对于（int i=0；iStd::CUT> P>我认为代码是不正确的。正如您所注意到的，在CuBLAS V2API中， CuBasSodos是一个非阻塞调用，理论上需要一个同步原语，才能在主机内存中使用。< /P>
第一个cublasSdot
调用还应该有一个同步点，类似于：
...
cusparseScsrmv(cusparseHandle, CUSPARSE_OPERATION_NON_TRANSPOSE, N, N, nz, &alpha, descr, d_val, d_row, d_col, d_p, &beta, d_Ax);
cublasStatus = cublasSdot(cublasHandle, N, d_p, 1, d_Ax, 1, &dot);
cudaDeviceSynchronize();
a = r1 / dot;
...

该示例代码还使用了长期弃用的cudaThreadSynchronize
API调用。我建议向NVIDIA提交关于这两个项目的错误报告。谢谢。我运行了一些有同步和没有同步的测试，但结果看起来是一样的（请参阅我对原始问题的编辑）.也许按照你的建议，最好报告一个bug。
...
cusparseScsrmv(cusparseHandle, CUSPARSE_OPERATION_NON_TRANSPOSE, N, N, nz, &alpha, descr, d_val, d_row, d_col, d_p, &beta, d_Ax);
cublasStatus = cublasSdot(cublasHandle, N, d_p, 1, d_Ax, 1, &dot);
cudaDeviceSynchronize();
a = r1 / dot;
...