CUDA性能-始终返回不同的值

CUDA性能-始终返回不同的值,cuda,Cuda,这是我的代码: using namespace std; #include <iostream> #include <stdio.h> #include <stdlib.h> const int N = 8000; void fillArray(int *data, int count) { for (int i = 0; i < count; i++) data[i] = rand() % 100; } __global_

这是我的代码:

using namespace std;
#include <iostream>
#include <stdio.h>
#include <stdlib.h>

const int N = 8000;

void fillArray(int *data, int count) {
    for (int i = 0; i < count; i++)
        data[i] = rand() % 100;
}

__global__ void add(int* a, int *b, int *c) {

    int tid = threadIdx.x + blockIdx.x * blockDim.x;
    if (tid < N) {
        c[tid] = a[tid] + b[tid];
    }
}

__global__ void subtract(int* a, int *b, int *c) {

    int tid = threadIdx.x + blockIdx.x * blockDim.x;
    if (tid < N) {
        c[tid] = a[tid] - b[tid];
    }
}

__global__ void multiply(int* a, int *b, int *c) {

    int tid = threadIdx.x + blockIdx.x * blockDim.x;
    if (tid < N) {
        c[tid] = a[tid] * b[tid];
    }
}

__global__ void divide(int* a, int *b, int *c) {

    int tid = threadIdx.x + blockIdx.x * blockDim.x;
    if (tid < N) {
        c[tid] = a[tid] / b[tid];
    }
}

__global__ void modu(int* a, int *b, int *c) {

    int tid = threadIdx.x + blockIdx.x * blockDim.x;
    if (tid < N) {
        c[tid] = a[tid] % b[tid];
    }
}

__global__ void neg(int *data, int *c) {

    int tid = threadIdx.x + blockIdx.x * blockDim.x;
    if (tid < N) {
        c[tid] = -data[tid];
    }
}

float duration(int *devA, int *devB, int *devC, int blocksPerGrid, int threadsPerBlock) {

    cudaEvent_t start, stop;
    float elapsedTime;

    cudaEventCreate(&start);
    cudaEventCreate(&stop);
    cudaEventRecord(start, 0);

    int hArrayC[N];

    add<<<blocksPerGrid, threadsPerBlock>>>(devA, devB,devC);
    cudaMemcpy(hArrayC,devC,N*sizeof(int),cudaMemcpyDeviceToHost);

    subtract<<<blocksPerGrid, threadsPerBlock>>>(devA, devB,devC);
    cudaMemcpy(hArrayC,devC,N*sizeof(int),cudaMemcpyDeviceToHost);

    multiply<<<blocksPerGrid, threadsPerBlock>>>(devA, devB,devC);
    cudaMemcpy(hArrayC,devC,N*sizeof(int),cudaMemcpyDeviceToHost);

    divide<<<blocksPerGrid, threadsPerBlock>>>(devA, devB,devC);
    cudaMemcpy(hArrayC,devC,N*sizeof(int),cudaMemcpyDeviceToHost);

    modu<<<blocksPerGrid, threadsPerBlock>>>(devA, devB,devC);
    cudaMemcpy(hArrayC,devC,N*sizeof(int),cudaMemcpyDeviceToHost);

    neg<<<blocksPerGrid, threadsPerBlock>>>(devA,devC);
    cudaMemcpy(hArrayC,devC,N*sizeof(int),cudaMemcpyDeviceToHost);

    neg<<<blocksPerGrid, threadsPerBlock>>>(devB,devC);
    cudaMemcpy(hArrayC,devC,N*sizeof(int),cudaMemcpyDeviceToHost);

    cudaEventRecord(stop, 0);
    cudaEventSynchronize(stop);
    cudaEventElapsedTime(&elapsedTime, start, stop);

    cudaEventDestroy(start);
    cudaEventDestroy(stop);

    return elapsedTime;
}

int main(void) {

    int *a, *b;
    a = new int[N];
    b = new int [N];

    float dur = 0;

    int *devA, *devB,*devC;

    cudaMalloc((void**) &devA, N * sizeof(int));
    cudaMalloc((void**) &devB, N * sizeof(int));
    cudaMalloc((void**) &devC, N * sizeof(int));

    fillArray(a, N);
    fillArray(b, N);

    cudaMemcpy(devA, a, N * sizeof(int), cudaMemcpyHostToDevice);
    cudaMemcpy(devB, b, N * sizeof(int), cudaMemcpyHostToDevice);


    dur = duration(devA, devB, devC,N, 1);

    cout << "Global memory version:\n";
    cout << "Process completed in " << dur;
    cout << " for a data set of " << N << " integers.";



    cudaFree(devA);
    cudaFree(devB);
    delete [] a;
    delete [] b;

    return 0;
}
使用名称空间std;
#包括
#包括
#包括
const int N=8000;
无效填充数组(整数*数据,整数计数){
for(int i=0;i这可能是由于英伟达驱动程序的加载/卸载引起的,将其视为GPU的初始化步骤。< /P>
您可以将GPU设置为持久化模式:

nvidia-smi -pm 1
或者,您可以在对GPU代码计时以触发驱动程序加载之前运行虚拟内核:

__global__ void dummy()
{
    // This kernel does nothing, this is just a "warm-up"
}

// Before your cudaEventRecord etc.
dummy<<<blocksPerGrid, threadsPerBlock>>>();
\uuuu全局\uuuuu无效虚拟()
{
//这个内核什么都不做,这只是一个“预热”
}
//在你的考试之前等等。
dummy();

或者在对内核进行计时之前使用
cudaThreadSynchronize()

首先,如果您使用
nvprof
,您的生活会更轻松。其次,您应该阅读此问题的注释:。尝试将GPU设置为持久化模式(
nvidia smi-pm 1
)。我知道,但我必须这样做。您可以尝试在正在计时的内核之前调用一个虚拟内核,因此驱动程序加载的开销不应影响您的计时。我可以通过编程解决这个问题吗?您能给我们提供您系统的更多规格吗?哪个gpu用于哪个操作系统。您的代码是每个块只启动一个线程。这有什么诀窍,但会造成性能漏洞。请尝试每个块启动更多线程,例如125个块,每个块调用64个线程。最后释放devC以进行良好的清理。
nvprof
的结果如何?它们是否始终一致?您的机器配置是什么?什么类型的GPU ar你在使用什么?这是windows还是linux?GPU也在运行显示器吗?你在使用哪个驱动程序和CUDA版本?当我运行你的代码时,我得到的结果是0.76左右。我从来没有看到过10、20或30。因为你在计时序列中运行多个内核,所以显示器驱动程序可能会短暂地将GPU带到p执行显示任务,这可能会显示在您的计时中。我认为,如果您使用开始点和停止点分别计时每个内核,并将经过的时间相加,您将看到较少的变化。