Cuda 为什么下面程序的纹理内存版本比全局内存版本慢_Cuda_Textures_Nvidia

Cuda 为什么下面程序的纹理内存版本比全局内存版本慢

cuda

Cuda 为什么下面程序的纹理内存版本比全局内存版本慢,cuda,textures,nvidia,Cuda,Textures,Nvidia,我不明白为什么我的纹理版本比我的全局内存版本慢，因为纹理版本应该利用空间局部性。我试图在下面的例子中计算点积。因此，如果一个线程访问索引i，那么它的邻居应该访问i+1。因此，我们看到了空间局部性以下是纹理内存版本： #include<cuda_runtime.h> #include<cuda.h> #include<stdio.h> #include<stdlib.h> #define intMin(a,b) ((a<b)?a:b) //T

我不明白为什么我的纹理版本比我的全局内存版本慢，因为纹理版本应该利用空间局部性。我试图在下面的例子中计算点积。因此，如果一个线程访问索引i，那么它的邻居应该访问i+1。因此，我们看到了空间局部性

以下是纹理内存版本：

#include<cuda_runtime.h>
#include<cuda.h>
#include<stdio.h>
#include<stdlib.h>
#define intMin(a,b) ((a<b)?a:b)
//Threads per block
#define TPB 128
//blocks per grid
#define BPG intMin(128, ((n+TPB-1)/TPB))

texture<float> arr1;
texture<float> arr2;


const int n = 4;

__global__ void addVal( float *c){
    int tid = blockIdx.x * blockDim.x + threadIdx.x;

    //Using shared memory to temporary store results
    __shared__ float cache[TPB];
    float temp = 0;
    while(tid < n){
        temp += tex1Dfetch(arr1,tid) * tex1Dfetch(arr2,tid);
        tid += gridDim.x * blockDim.x;


    }
    cache[threadIdx.x] = temp;
    __syncthreads();
    int i = blockDim.x/2;
    while( i !=0){
        if(threadIdx.x < i){
            cache[threadIdx.x] = cache[threadIdx.x] +cache[threadIdx.x + i] ;

        }
    __syncthreads();
    i = i/2;

    }
    if(threadIdx.x == 1){
        c[blockIdx.x ] = cache[0];
    }



}

int main(){

float a[n] , b[n] , c[BPG];
float *deva, *devb, *devc;
int i;
//Filling with random values to test
for( i =0; i< n; i++){
    a[i] = i;
    b[i] = i*2;
}
printf("Not using constant memory\n");
cudaMalloc((void**)&deva, n * sizeof(float));
cudaMalloc((void**)&devb, n * sizeof(float));
cudaMalloc((void**)&devc, BPG * sizeof(float));


cudaMemcpy(deva, a, n *sizeof(float), cudaMemcpyHostToDevice);
cudaMemcpy(devb, b, n *sizeof(float), cudaMemcpyHostToDevice);
cudaBindTexture(NULL,arr1, deva,sizeof(float) * n); // note: deva shd be in gpu
cudaBindTexture(NULL,arr2, devb,sizeof(float) * n); // note: deva shd be in gpu
cudaEvent_t start, stop;
cudaEventCreate(&start);
cudaEventCreate(&stop);
cudaEventRecord(start, 0);

//Call function to do dot product
addVal<<<BPG, TPB>>>(devc);
cudaEventRecord(stop, 0);
cudaEventSynchronize(stop);
float time;
cudaEventElapsedTime(&time,start, stop);
printf("The elapsed time is: %f\n", time);


//copy result back
cudaMemcpy(c, devc, BPG * sizeof(float), cudaMemcpyDeviceToHost);
float sum =0 ;
for ( i = 0 ; i< BPG; i++){
    sum+=c[i];

}
//display answer
printf("%f\n",sum);
cudaUnbindTexture(arr1);
cudaUnbindTexture(arr2);
cudaFree(devc);

getchar();

return 0;
}

#include<cuda_runtime.h>
#include<cuda.h>
#include<stdio.h>
#include<stdlib.h>
#define intMin(a,b) ((a<b)?a:b)
//Threads per block
#define TPB 128
//blocks per grid
#define BPG intMin(128, ((n+TPB-1)/TPB))

const int n = 4;

__global__ void addVal(float *a, float *b, float *c){
    int tid = blockIdx.x * blockDim.x + threadIdx.x;

    //Using shared memory to temporary store results
    __shared__ float cache[TPB];
    float temp = 0;
    while(tid < n){
        temp += a[tid] * b[tid];
        tid += gridDim.x * blockDim.x;


    }
    cache[threadIdx.x] = temp;
    __syncthreads();
    int i = blockDim.x/2;
    while( i !=0){
        if(threadIdx.x < i){
            cache[threadIdx.x] = cache[threadIdx.x] +cache[threadIdx.x + i] ;

        }
    __syncthreads();
    i = i/2;

    }
    if(threadIdx.x == 1){
        c[blockIdx.x ] = cache[0];
    }



}

int main(){

float a[n] , b[n] , c[BPG];
float *deva, *devb, *devc;
int i;
//Filling with random values to test
for( i =0; i< n; i++){
    a[i] = i;
    b[i] = i*2;
}
printf("Not using constant memory\n");
cudaMalloc((void**)&deva, n * sizeof(float));
cudaMalloc((void**)&devb, n * sizeof(float));
cudaMalloc((void**)&devc, BPG * sizeof(float));
cudaMemcpy(deva, a, n *sizeof(float), cudaMemcpyHostToDevice);
cudaMemcpy(devb, b, n *sizeof(float), cudaMemcpyHostToDevice);

cudaEvent_t start, stop;
cudaEventCreate(&start);
cudaEventCreate(&stop);
cudaEventRecord(start, 0);

//Call function to do dot product
addVal<<<BPG, TPB>>>(deva, devb, devc);
cudaEventRecord(stop, 0);
cudaEventSynchronize(stop);
float time;
cudaEventElapsedTime(&time,start, stop);
printf("The elapsed time is: %f\n", time);


//copy result back
cudaMemcpy(c, devc, BPG * sizeof(float), cudaMemcpyDeviceToHost);
float sum =0 ;
for ( i = 0 ; i< BPG; i++){
    sum+=c[i];

}
//display answer
printf("%f\n",sum);


getchar();

return 0;
}

#包括
#包括
#包括
#包括
#定义intMin（a，b）（（a），同时了解图形设备可能有助于解决某些类型的问题，计算能力2.x一级和二级缓存与纹理缓存一样工作
在这种情况下，您不是在利用纹理缓存，因为每个线程只读取一次值。另一方面，您是在利用1D中的空间局部性，通过全局内存合并访问可以隐藏什么
我向您推荐《CUDA示例：通用GPU编程入门》一书。这是一本适合初学者的好书。书中有JuliaSet或非常基本的光线投射等图形示例（如果您喜欢，还有常见的加法、减法和点积示例：）
希望有帮助。
根据pQB的回答，您的程序中没有数据重用——每个输入只读取一次，并且只使用一次。内存索引在线程之间是连续的，因此完全结合在一起。由于这两个原因，不需要任何设备内存缓存，因此全局内存访问比n纹理访问。在纹理缓存中增加额外的延迟开销（纹理缓存旨在提高吞吐量，而不是降低延迟，不像一级/二级数据缓存），并解释了延迟的原因
顺便说一句，你正在做的是一个平行的减少，所以你可能想看到“减少”CUDA SDK中的一个快速实现示例。
两个问题：当内核以浮点方式工作时，为什么要使用整数纹理？为什么您的代码不包含任何错误检查？@Talonmies:感谢您的回答。使纹理浮动有帮助。另外，我的cudaBindTexture调用是错误的。但是，尽管我的程序是wor现在，我很困惑为什么我的纹理版本比我的全局内存版本慢，因为纹理版本应该利用空间局部性。我已经发布了上面两个程序。请有一个look@Talonmies当前位置我没有任何错误处理，因为到目前为止，我不知道任何错误处理。如果您能教我一些，我将很乐意知道：）