Cuda 为什么下面程序的纹理内存版本比全局内存版本慢

Cuda 为什么下面程序的纹理内存版本比全局内存版本慢,cuda,textures,nvidia,Cuda,Textures,Nvidia,我不明白为什么我的纹理版本比我的全局内存版本慢,因为纹理版本应该利用空间局部性。我试图在下面的例子中计算点积。因此,如果一个线程访问索引i,那么它的邻居应该访问i+1。因此,我们看到了空间局部性 以下是纹理内存版本: #include<cuda_runtime.h> #include<cuda.h> #include<stdio.h> #include<stdlib.h> #define intMin(a,b) ((a<b)?a:b) //T

我不明白为什么我的纹理版本比我的全局内存版本慢,因为纹理版本应该利用空间局部性。我试图在下面的例子中计算点积。因此,如果一个线程访问索引i,那么它的邻居应该访问i+1。因此,我们看到了空间局部性

以下是纹理内存版本:

#include<cuda_runtime.h>
#include<cuda.h>
#include<stdio.h>
#include<stdlib.h>
#define intMin(a,b) ((a<b)?a:b)
//Threads per block
#define TPB 128
//blocks per grid
#define BPG intMin(128, ((n+TPB-1)/TPB))

texture<float> arr1;
texture<float> arr2;


const int n = 4;

__global__ void addVal( float *c){
    int tid = blockIdx.x * blockDim.x + threadIdx.x;

    //Using shared memory to temporary store results
    __shared__ float cache[TPB];
    float temp = 0;
    while(tid < n){
        temp += tex1Dfetch(arr1,tid) * tex1Dfetch(arr2,tid);
        tid += gridDim.x * blockDim.x;


    }
    cache[threadIdx.x] = temp;
    __syncthreads();
    int i = blockDim.x/2;
    while( i !=0){
        if(threadIdx.x < i){
            cache[threadIdx.x] = cache[threadIdx.x] +cache[threadIdx.x + i] ;

        }
    __syncthreads();
    i = i/2;

    }
    if(threadIdx.x == 1){
        c[blockIdx.x ] = cache[0];
    }



}

int main(){

float a[n] , b[n] , c[BPG];
float *deva, *devb, *devc;
int i;
//Filling with random values to test
for( i =0; i< n; i++){
    a[i] = i;
    b[i] = i*2;
}
printf("Not using constant memory\n");
cudaMalloc((void**)&deva, n * sizeof(float));
cudaMalloc((void**)&devb, n * sizeof(float));
cudaMalloc((void**)&devc, BPG * sizeof(float));


cudaMemcpy(deva, a, n *sizeof(float), cudaMemcpyHostToDevice);
cudaMemcpy(devb, b, n *sizeof(float), cudaMemcpyHostToDevice);
cudaBindTexture(NULL,arr1, deva,sizeof(float) * n); // note: deva shd be in gpu
cudaBindTexture(NULL,arr2, devb,sizeof(float) * n); // note: deva shd be in gpu
cudaEvent_t start, stop;
cudaEventCreate(&start);
cudaEventCreate(&stop);
cudaEventRecord(start, 0);

//Call function to do dot product
addVal<<<BPG, TPB>>>(devc);
cudaEventRecord(stop, 0);
cudaEventSynchronize(stop);
float time;
cudaEventElapsedTime(&time,start, stop);
printf("The elapsed time is: %f\n", time);


//copy result back
cudaMemcpy(c, devc, BPG * sizeof(float), cudaMemcpyDeviceToHost);
float sum =0 ;
for ( i = 0 ; i< BPG; i++){
    sum+=c[i];

}
//display answer
printf("%f\n",sum);
cudaUnbindTexture(arr1);
cudaUnbindTexture(arr2);
cudaFree(devc);

getchar();

return 0;
}
#include<cuda_runtime.h>
#include<cuda.h>
#include<stdio.h>
#include<stdlib.h>
#define intMin(a,b) ((a<b)?a:b)
//Threads per block
#define TPB 128
//blocks per grid
#define BPG intMin(128, ((n+TPB-1)/TPB))

const int n = 4;

__global__ void addVal(float *a, float *b, float *c){
    int tid = blockIdx.x * blockDim.x + threadIdx.x;

    //Using shared memory to temporary store results
    __shared__ float cache[TPB];
    float temp = 0;
    while(tid < n){
        temp += a[tid] * b[tid];
        tid += gridDim.x * blockDim.x;


    }
    cache[threadIdx.x] = temp;
    __syncthreads();
    int i = blockDim.x/2;
    while( i !=0){
        if(threadIdx.x < i){
            cache[threadIdx.x] = cache[threadIdx.x] +cache[threadIdx.x + i] ;

        }
    __syncthreads();
    i = i/2;

    }
    if(threadIdx.x == 1){
        c[blockIdx.x ] = cache[0];
    }



}

int main(){

float a[n] , b[n] , c[BPG];
float *deva, *devb, *devc;
int i;
//Filling with random values to test
for( i =0; i< n; i++){
    a[i] = i;
    b[i] = i*2;
}
printf("Not using constant memory\n");
cudaMalloc((void**)&deva, n * sizeof(float));
cudaMalloc((void**)&devb, n * sizeof(float));
cudaMalloc((void**)&devc, BPG * sizeof(float));
cudaMemcpy(deva, a, n *sizeof(float), cudaMemcpyHostToDevice);
cudaMemcpy(devb, b, n *sizeof(float), cudaMemcpyHostToDevice);

cudaEvent_t start, stop;
cudaEventCreate(&start);
cudaEventCreate(&stop);
cudaEventRecord(start, 0);

//Call function to do dot product
addVal<<<BPG, TPB>>>(deva, devb, devc);
cudaEventRecord(stop, 0);
cudaEventSynchronize(stop);
float time;
cudaEventElapsedTime(&time,start, stop);
printf("The elapsed time is: %f\n", time);


//copy result back
cudaMemcpy(c, devc, BPG * sizeof(float), cudaMemcpyDeviceToHost);
float sum =0 ;
for ( i = 0 ; i< BPG; i++){
    sum+=c[i];

}
//display answer
printf("%f\n",sum);


getchar();

return 0;
}
#包括
#包括
#包括
#包括

#定义intMin(a,b)((a),同时了解图形设备可能有助于解决某些类型的问题,计算能力2.x一级和二级缓存与纹理缓存一样工作

在这种情况下,您不是在利用纹理缓存,因为每个线程只读取一次值。另一方面,您是在利用1D中的空间局部性,通过全局内存合并访问可以隐藏什么

我向您推荐《CUDA示例:通用GPU编程入门》一书。这是一本适合初学者的好书。书中有JuliaSet或非常基本的光线投射等图形示例(如果您喜欢,还有常见的加法、减法和点积示例:)


希望有帮助。

根据pQB的回答,您的程序中没有数据重用——每个输入只读取一次,并且只使用一次。内存索引在线程之间是连续的,因此完全结合在一起。由于这两个原因,不需要任何设备内存缓存,因此全局内存访问比n纹理访问。在纹理缓存中增加额外的延迟开销(纹理缓存旨在提高吞吐量,而不是降低延迟,不像一级/二级数据缓存),并解释了延迟的原因


顺便说一句,你正在做的是一个平行的减少,所以你可能想看到“减少”CUDA SDK中的一个快速实现示例。

两个问题:当内核以浮点方式工作时,为什么要使用整数纹理?为什么您的代码不包含任何错误检查?@Talonmies:感谢您的回答。使纹理浮动有帮助。另外,我的cudaBindTexture调用是错误的。但是,尽管我的程序是wor现在,我很困惑为什么我的纹理版本比我的全局内存版本慢,因为纹理版本应该利用空间局部性。我已经发布了上面两个程序。请有一个look@Talonmies当前位置我没有任何错误处理,因为到目前为止,我不知道任何错误处理。如果您能教我一些,我将很乐意知道:)