Random Cuda随机数生成_Random_Cuda_Nvidia_Thrust

Random Cuda随机数生成

random cuda

Random Cuda随机数生成,random,cuda,nvidia,thrust,Random,Cuda,Nvidia,Thrust,我想知道通过使用curand或其他方法，生成一个0到49k之间的伪随机数的最佳方法是什么，每个线程都是相同的我更喜欢在内核中生成随机数，因为我必须一次生成一个随机数，但大约要生成10k次我可以使用介于0.0和1.0之间的浮动，但我不知道如何使我的PRN对所有线程都可用，因为大多数文章和示例显示了如何为每个线程使用不同的PRN 谢谢也许你只需要学习一下，尤其是对于。为每个线程获得相同序列的关键是为每个线程创建状态（大多数示例都这样做），然后为每个线程将相同的序列号传递给init函数。在中，参数

我想知道通过使用curand或其他方法，生成一个0到49k之间的伪随机数的最佳方法是什么，每个线程都是相同的

我更喜欢在内核中生成随机数，因为我必须一次生成一个随机数，但大约要生成10k次

我可以使用介于0.0和1.0之间的浮动，但我不知道如何使我的PRN对所有线程都可用，因为大多数文章和示例显示了如何为每个线程使用不同的PRN

谢谢

也许你只需要学习一下，尤其是对于。为每个线程获得相同序列的关键是为每个线程创建状态（大多数示例都这样做），然后为每个线程将相同的序列号传递给init函数。在中，参数的顺序如下所示：

curand_init(seed, subsequence number, offset, state)

通过为每个init调用设置相同的种子，我们为每个线程生成相同的序列。通过将子序列和偏移量设置为相同，我们在该序列中为每个线程选择相同的起始值

下面是要演示的代码：

// compile with: nvcc -arch=sm_20 -lcurand -o t89 t89.cu
#include <stdio.h>
#include <curand.h>
#include <curand_kernel.h>

#define SCALE 49000
#define DSIZE 5000
#define nTPB 256

#define cudaCheckErrors(msg) \
    do { \
        cudaError_t __err = cudaGetLastError(); \
        if (__err != cudaSuccess) { \
            fprintf(stderr, "Fatal error: %s (%s at %s:%d)\n", \
                msg, cudaGetErrorString(__err), \
                __FILE__, __LINE__); \
            fprintf(stderr, "*** FAILED - ABORTING\n"); \
            exit(1); \
        } \
    } while (0)

__device__ float getnextrand(curandState *state){

  return (float)(curand_uniform(state));
}

__device__ int getnextrandscaled(curandState *state, int scale){

  return (int) scale * getnextrand(state);
}


__global__ void initCurand(curandState *state, unsigned long seed){
    int idx = threadIdx.x + blockIdx.x * blockDim.x;
    curand_init(seed, 0, 0, &state[idx]);
}

__global__ void testrand(curandState *state, int *a1, int *a2){
    int idx = threadIdx.x + blockIdx.x * blockDim.x;

    a1[idx] = getnextrandscaled(&state[idx], SCALE);
    a2[idx] = getnextrandscaled(&state[idx], SCALE);
}

int main() {

    int *h_a1, *h_a2, *d_a1, *d_a2;
    curandState *devState;

    h_a1 = (int *)malloc(DSIZE*sizeof(int));
    if (h_a1 == 0) {printf("malloc fail\n"); return 1;}
    h_a2 = (int *)malloc(DSIZE*sizeof(int));
    if (h_a2 == 0) {printf("malloc fail\n"); return 1;}
    cudaMalloc((void**)&d_a1, DSIZE * sizeof(int));
    cudaMalloc((void**)&d_a2, DSIZE * sizeof(int));
    cudaMalloc((void**)&devState, DSIZE * sizeof(curandState));
    cudaCheckErrors("cudamalloc");



     initCurand<<<(DSIZE+nTPB-1)/nTPB,nTPB>>>(devState, 1);
     cudaDeviceSynchronize();
     cudaCheckErrors("kernels1");
     testrand<<<(DSIZE+nTPB-1)/nTPB,nTPB>>>(devState, d_a1, d_a2);
     cudaDeviceSynchronize();
     cudaCheckErrors("kernels2");
     cudaMemcpy(h_a1, d_a1, DSIZE*sizeof(int), cudaMemcpyDeviceToHost);
     cudaMemcpy(h_a2, d_a2, DSIZE*sizeof(int), cudaMemcpyDeviceToHost);
     cudaCheckErrors("cudamemcpy");
     printf("1st returned random value is %d\n", h_a1[0]);
     printf("2nd returned random value is %d\n", h_a2[0]);

     for (int i=1; i< DSIZE; i++){
       if (h_a1[i] != h_a1[0]) {
         printf("mismatch on 1st value at %d, val = %d\n", i, h_a1[i]);
         return 1;
         }
       if (h_a2[i] != h_a2[0]) {
         printf("mismatch on 2nd value at %d, val = %d\n", i, h_a2[i]);
         return 1;
         }
       }
     printf("thread values match!\n");

}

//编译时使用：nvcc-arch=sm_20-lcurand-o t89 t89.cu
#包括
#包括
#包括
#定义比例尺49000
#定义DSIZE 5000
#定义nTPB 256
#定义cudaCheckErrors（msg）\
做{\
cudaError\u t\u err=cudaGetLastError（）\
如果（_err！=cudaSuccess）{\
fprintf（标准，“致命错误：%s（%s位于%s:%d）\n”\
msg，cudaGetErrorString（_err）\
__文件（行）\
fprintf（stderr，“***失败-中止\n”）\
出口（1）\
} \
}而（0）
__设备\uuuuu浮点getnextrand（curandState*状态）{
返回（浮动）（curand_统一（州））；
}
__设备\uuuuu int getnextrandscaled（curandState*状态，int比例）{
返回（int）刻度*getnextrand（状态）；
}
__全局\uuuuvoid initCurand（curandState*状态，无符号长种子）{
int idx=threadIdx.x+blockIdx.x*blockDim.x；
curand_init（种子、0、0和状态[idx]）；
}
__全局无效测试随机数（curandState*state，int*a1，int*a2）{
int idx=threadIdx.x+blockIdx.x*blockDim.x；
a1[idx]=getnextrandscaled（&state[idx]，比例）；
a2[idx]=getnextrandscaled（&state[idx]，比例）；
}
int main（）{
int*h_a1、*h_a2、*d_a1、*d_a2；
库兰州*devState；
h_a1=（int*）malloc（DSIZE*sizeof（int））；
如果（h_a1==0）{printf（“malloc fail\n”）；返回1；}
h_a2=（int*）malloc（DSIZE*sizeof（int））；
如果（h_a2==0）{printf（“malloc fail\n”）；返回1；}
cudamaloc（（void**）和d_a1，DSIZE*sizeof（int））；
cudamaloc（（void**）和d_a2，DSIZE*sizeof（int））；
Cudamaloc（（无效**）和devState，DSIZE*sizeof（库兰州））；
cudaCheckErrors（“Cudamaloc”）；
初始值（devState，1）；
cudaDeviceSynchronize（）；
cudaCheckErrors（“内核1”）；
testrand（devState，d_a1，d_a2）；
cudaDeviceSynchronize（）；
cudaCheckErrors（“内核2”）；
cudaMemcpy（h_a1，d_a1，DSIZE*sizeof（int），cudamemcpydevicetoost）；
cudaMemcpy（h_a2，d_a2，DSIZE*sizeof（int），cudamemcpydevicetoost）；
cudaCheckErrors（“cudamemcpy”）；
printf（“第一个返回的随机值是%d\n”，h_a1[0]）；
printf（“第二个返回的随机值是%d\n”，h_a2[0]）；
对于（int i=1；i