举例来说，Cuda中的点产品对我不起作用_Cuda

举例来说，Cuda中的点产品对我不起作用

cuda

举例来说，Cuda中的点产品对我不起作用,cuda,Cuda,我开始阅读“Cuda的例子”这本书，我一直对使用“共享内存”的dot例子感到不满。我从书中复制粘贴示例并设置：N=x*1024；threadsPerBlock=32；blocksPerGrid=8。其中，我用2,3,4,5测试“x”值。如果我设置x=3，结果是不好的，但是当我使用x=2,4,5时，一切都正常。我不明白问题出在哪里。代码是： #include "cuda_runtime.h" #include "device_launch_parameters.h" #include <s

我开始阅读“Cuda的例子”这本书，我一直对使用“共享内存”的dot例子感到不满。我从书中复制粘贴示例并设置：N=x*1024；threadsPerBlock=32；blocksPerGrid=8。其中，我用2,3,4,5测试“x”值。如果我设置x=3，结果是不好的，但是当我使用x=2,4,5时，一切都正常。我不明白问题出在哪里。代码是：

#include "cuda_runtime.h"
#include "device_launch_parameters.h"
#include <stdio.h>

#define imin(a, b) (a<b?a:b)
#define sum_squares(x) (x*(x+1)*(2*x+1)/6)

const int x = 3;
const int N = 3 * 1024;
const int threadsPerBlock = 32;
const int blocksPerGrid = 8;

__global__ void dot(float *a, float *b, float *c)
{
    __shared__ float cache[threadsPerBlock];
    int tid = threadIdx.x + blockIdx.x * blockDim.x;
    int cacheIndex = threadIdx.x;
    float temp = 0;

    while (tid < N)
    {
        temp += a[tid] * b[tid];
        tid += blockDim.x * gridDim.x;
    }

    cache[cacheIndex] = temp;

    __syncthreads();

    int i = blockDim.x / 2;
    while (i != 0)
    {
        if (cacheIndex < i)
            cache[cacheIndex] += cache[cacheIndex + i];
        __syncthreads();
        i /= 2;
    }

    if (cacheIndex == 0) 
        c[blockIdx.x] = cache[0];
}

int main()
{
    float *a, *b, *partial_c, result;
    float *d_a, *d_b, *d_partial_c;

    a = (float *)malloc(N * sizeof(float));
    b = (float *)malloc(N * sizeof(float));
    partial_c = (float *)malloc(blocksPerGrid * sizeof(float));

    cudaMalloc((void **)&d_a, N * sizeof(float));
    cudaMalloc((void **)&d_b, N * sizeof(float));
    cudaMalloc((void **)&d_partial_c, blocksPerGrid * sizeof(float));

    for (int i = 0; i < N; i++)
    {
        a[i] = i;
        b[i] = 2 * i;
    }

    cudaMemcpy(d_a, a, N * sizeof(float), cudaMemcpyHostToDevice);
    cudaMemcpy(d_b, b, N * sizeof(float), cudaMemcpyHostToDevice);

    dot << <blocksPerGrid, threadsPerBlock >> >(d_a, d_b, d_partial_c);

    cudaMemcpy(partial_c, d_partial_c, blocksPerGrid * sizeof(float),     cudaMemcpyDeviceToHost);

    result = 0;
    for (int i = 0; i < blocksPerGrid; i++)
        result += partial_c[i];

    if (2 * sum_squares((float)(N - 1)) == result)
        printf(":)\n");
    else
        printf(":(\n");

    cudaFree(d_a);
    cudaFree(d_b);
    cudaFree(d_partial_c);

    free(a);
    free(b);
    free(partial_c);

    getchar();
    return 0;
}

#包括“cuda_runtime.h”
#包括“设备启动参数.h”
#包括
#定义imin（a，b）（a（d_a，d_b，d_partial_c）；
cudaMemcpy（partial_c，d_partial_c，blocksPerGrid*sizeof（float），cudamemcpydevicetoost）；
结果=0；
对于（int i=0；i

因为

float

没有足够的精度，这只是。但是对于

x=3；

您的预期结果是

19317916672

包含11个数字

对于

x=4,5

，在我的机器上的结果也很糟糕。

因为

float

没有足够的精度，这只是。但是对于

x=3；

您的预期结果是

19317916672

包含11个数字

对于

x=4,5

，在我的机器上的结果也很糟糕。

好的，我将float改为double，工作正常。但我不明白为什么在我的情况下，x=4,5（结果很大）没有问题，而x=3（结果不太长）失败。@PavelAngelMendozaVillafane您可以打印您正在比较的两个浮点数，以及精确的结果以了解原因。

2*平方和（（float）（N-1））

不一定能给出正确的结果。

float

。好的，我将float改为double，工作正常。但我不明白为什么在我的情况下，x=4,5（结果很大）没有问题，但x=3（较短的结果）失败。@PavelAngelMendozaVillafane您可以打印您正在比较的两个浮点数，以及精确的结果，以了解原因。

2*平方和（（float）（N-1））

不一定给出正确的

float

结果。