Parallel processing 推力总和的值：：减少值不正确_Parallel Processing_Cuda_Nvidia_Hpc_Thrust

Parallel processing 推力总和的值：：减少值不正确

parallel-processing cuda

Parallel processing 推力总和的值：：减少值不正确,parallel-processing,cuda,nvidia,hpc,thrust,Parallel Processing,Cuda,Nvidia,Hpc,Thrust,我一直在尝试实现一些需要在推力：：设备ptr上调用reduce的代码，结果与处理大值时的CPU实现不一致。我必须处理大的价值观。那么有没有办法：我的代码： #include <cuda_runtime_api.h> #include <stdio.h> #include <thrust/host_vector.h> #include <thrust/device_vector.h> #include <

我一直在尝试实现一些需要在推力：：设备ptr上调用reduce的代码，结果与处理大值时的CPU实现不一致。我必须处理大的价值观。那么有没有办法：

我的代码：

    #include <cuda_runtime_api.h>
    #include <stdio.h>
    #include <thrust/host_vector.h>
    #include <thrust/device_vector.h>
    #include <iostream>
    #define   NZ  412//
    #define   NX  402//
    using namespace std;
    using real =double;
    
    
    void allocate_array_2d(real**& preal, const int dim1, const int dim2) {
        // Contiguous allocation of 2D arrays
    
        preal = new real * [dim1];
        preal[0] = new real[dim1 * dim2];
        for (int i = 1; i < dim1; i++) preal[i] = preal[i - 1] + dim2;
    
        for (int i = 0; i < dim1; i++) {
            for (int j = 0; j < dim2; j++) {
                preal[i][j] = 0;
            }
        }
    }
    #define cudaCheckError(code)                                             \
      {                                                                      \
        if ((code) != cudaSuccess) {                                         \
          fprintf(stderr, "Cuda failure %s:%d: '%s' \n", __FILE__, __LINE__, \
                  cudaGetErrorString(code));                                 \
        }                                                                    \
      }
    
    
    int main()
    
    {
        real** a;
        std::cout.precision(30);
        allocate_array_2d(a, NZ, NX);//input array
       
        for (int i = 0; i < NZ; i++) {
            for (int j = 0; j < NX; j++) {
                a[i][j] = 2.14748e+09;
              
              
            }
        }
    
            real* da;
            cudaCheckError(cudaMalloc(&da, NZ * NX  * sizeof(real)));
            cudaCheckError(cudaMemcpy(da,a[0], NZ * NX  * sizeof(real),cudaMemcpyHostToDevice));
    
            ///************************
            //CUDA KERNELS ARE HERE
            // REMOVED FOR CLEAR QUESTION
            ///*************************
      
            real sum1=0;
          
            thrust::device_ptr<real> dev_ptr = thrust::device_pointer_cast(da);
            sum1 = thrust::reduce(dev_ptr, dev_ptr+NZ*NX, 0, thrust::plus<real>());
            
            cout<<" \nsum gpu "<< sum1<<"\n";
    
            real sum2=0;
    
            ////////CPU PART DOING SAME THING//////
            for (int i = 0; i < NZ; i++) {
    
                for (int j = 0; j < NX; j++) {
                   sum2 += a[i][j];
                    
                }
            }
    
    
            cout<<"\nsum cpu "<< sum2<<"\n";
            if((sum2-sum1)<0.001)
            std::cout << "\nSUCESS "<< "\n";
            else
            std::cout << "\nFailure & by "<<sum2-sum1<< "\n";
       
    }

#包括
#包括
#包括
#包括
#包括
#定义新西兰412//
#定义NX 402//
使用名称空间std；
使用实=双；
void allocate_array_2d（实数**和前置数，常量整数dim1，常量整数dim2）{
//二维阵列的连续分配
preal=新的实数*[dim1]；
前[0]=新实[dim1*dim2]；
对于（inti=1；iinit

值中：
sum1 = thrust::reduce(dev_ptr, dev_ptr+NZ*NX, 0, thrust::plus<real>());
                                              ^

sum1=推力：：减小（dev_ptr，dev_ptr+NZ*NX，0，推力：：plus（））；
^

该常数的类型为整数类型。如果将其更改为双精度常数：
sum1 = thrust::reduce(dev_ptr, dev_ptr+NZ*NX, 0.0, thrust::plus<real>());

sum1=推力：：减小（dev_ptr，dev_ptr+NZ*NX，0.0，推力：：plus（））；

根据我的测试，您可以在CPU和GPU之间获得匹配结果。（您也可以将常量转换为real
类型：（real）0
，然后使用它，还有其他方法可以解决这个问题，例如放弃使用init值和二进制op。）