举例来说,Cuda中的点产品对我不起作用
我开始阅读“Cuda的例子”这本书,我一直对使用“共享内存”的dot例子感到不满。我从书中复制粘贴示例并设置:N=x*1024;threadsPerBlock=32;blocksPerGrid=8。其中,我用2,3,4,5测试“x”值。 如果我设置x=3,结果是不好的,但是当我使用x=2,4,5时,一切都正常。我不明白问题出在哪里。代码是:举例来说,Cuda中的点产品对我不起作用,cuda,Cuda,我开始阅读“Cuda的例子”这本书,我一直对使用“共享内存”的dot例子感到不满。我从书中复制粘贴示例并设置:N=x*1024;threadsPerBlock=32;blocksPerGrid=8。其中,我用2,3,4,5测试“x”值。 如果我设置x=3,结果是不好的,但是当我使用x=2,4,5时,一切都正常。我不明白问题出在哪里。代码是: #include "cuda_runtime.h" #include "device_launch_parameters.h" #include <s
#include "cuda_runtime.h"
#include "device_launch_parameters.h"
#include <stdio.h>
#define imin(a, b) (a<b?a:b)
#define sum_squares(x) (x*(x+1)*(2*x+1)/6)
const int x = 3;
const int N = 3 * 1024;
const int threadsPerBlock = 32;
const int blocksPerGrid = 8;
__global__ void dot(float *a, float *b, float *c)
{
__shared__ float cache[threadsPerBlock];
int tid = threadIdx.x + blockIdx.x * blockDim.x;
int cacheIndex = threadIdx.x;
float temp = 0;
while (tid < N)
{
temp += a[tid] * b[tid];
tid += blockDim.x * gridDim.x;
}
cache[cacheIndex] = temp;
__syncthreads();
int i = blockDim.x / 2;
while (i != 0)
{
if (cacheIndex < i)
cache[cacheIndex] += cache[cacheIndex + i];
__syncthreads();
i /= 2;
}
if (cacheIndex == 0)
c[blockIdx.x] = cache[0];
}
int main()
{
float *a, *b, *partial_c, result;
float *d_a, *d_b, *d_partial_c;
a = (float *)malloc(N * sizeof(float));
b = (float *)malloc(N * sizeof(float));
partial_c = (float *)malloc(blocksPerGrid * sizeof(float));
cudaMalloc((void **)&d_a, N * sizeof(float));
cudaMalloc((void **)&d_b, N * sizeof(float));
cudaMalloc((void **)&d_partial_c, blocksPerGrid * sizeof(float));
for (int i = 0; i < N; i++)
{
a[i] = i;
b[i] = 2 * i;
}
cudaMemcpy(d_a, a, N * sizeof(float), cudaMemcpyHostToDevice);
cudaMemcpy(d_b, b, N * sizeof(float), cudaMemcpyHostToDevice);
dot << <blocksPerGrid, threadsPerBlock >> >(d_a, d_b, d_partial_c);
cudaMemcpy(partial_c, d_partial_c, blocksPerGrid * sizeof(float), cudaMemcpyDeviceToHost);
result = 0;
for (int i = 0; i < blocksPerGrid; i++)
result += partial_c[i];
if (2 * sum_squares((float)(N - 1)) == result)
printf(":)\n");
else
printf(":(\n");
cudaFree(d_a);
cudaFree(d_b);
cudaFree(d_partial_c);
free(a);
free(b);
free(partial_c);
getchar();
return 0;
}
#包括“cuda_runtime.h”
#包括“设备启动参数.h”
#包括
#定义imin(a,b)(a(d_a,d_b,d_partial_c);
cudaMemcpy(partial_c,d_partial_c,blocksPerGrid*sizeof(float),cudamemcpydevicetoost);
结果=0;
对于(int i=0;i
因为float
没有足够的精度,这只是。但是对于x=3;
您的预期结果是
19317916672
包含11个数字
对于
x=4,5
,在我的机器上的结果也很糟糕。因为float
没有足够的精度,这只是。但是对于x=3;
您的预期结果是
19317916672
包含11个数字
对于
x=4,5
,在我的机器上的结果也很糟糕。好的,我将float改为double,工作正常。但我不明白为什么在我的情况下,x=4,5(结果很大)没有问题,而x=3(结果不太长)失败。@PavelAngelMendozaVillafane您可以打印您正在比较的两个浮点数,以及精确的结果以了解原因。2*平方和((float)(N-1))
不一定能给出正确的结果。float
。好的,我将float改为double,工作正常。但我不明白为什么在我的情况下,x=4,5(结果很大)没有问题,但x=3(较短的结果)失败。@PavelAngelMendozaVillafane您可以打印您正在比较的两个浮点数,以及精确的结果,以了解原因。2*平方和((float)(N-1))
不一定给出正确的float
结果。