Memory management 是否将主机指针数组传递给设备全局内存指针数组?
假设我们有Memory management 是否将主机指针数组传递给设备全局内存指针数组?,memory-management,cuda,Memory Management,Cuda,假设我们有 struct collapsed { char **seq; int num; }; ... __device__ *collapsed xdev; ... collapsed *x_dev cudaGetSymbolAddress((void **)&x_dev, xdev); cudaMemcpyToSymbol(x_dev, x, sizeof(collapsed)*size); //x already defined collapsed * , t
struct collapsed {
char **seq;
int num;
};
...
__device__ *collapsed xdev;
...
collapsed *x_dev
cudaGetSymbolAddress((void **)&x_dev, xdev);
cudaMemcpyToSymbol(x_dev, x, sizeof(collapsed)*size); //x already defined collapsed * , this line gives ERROR
你认为我在最后一行得到的错误是什么?
:无效的设备符号
?这里的第一个问题是x\u dev
不是设备符号。它可能在设备内存中包含地址,但该地址无法传递给cudaMemcpyToSymbol
。电话应该是:
cudaMemcpyToSymbol(xdev, ......);
这就引出了第二个问题。这样做:
cudaMemcpyToSymbol(xdev, x, sizeof(collapsed)*size);
这是违法的xdev
是指针,因此可以复制到xdev
的唯一有效值是设备地址。如果x
是设备内存中已折叠的结构的地址,则此内存传输操作的唯一有效版本为
cudaMemcpyToSymbol(xdev, &x, sizeof(collapsed *));
例如,x
必须事先设置为设备中分配的内存地址,类似于
collapsed *x;
cudaMalloc((void **)&x, sizeof(collapsed)*size);
cudaMemcpy(x, host_src, sizeof(collapsed)*size, cudaMemcpyHostToDevice);
正如所承诺的,这里有一个完整的工作示例。首先是守则:
#include <cstdlib>
#include <iostream>
#include <cuda_runtime.h>
struct collapsed {
char **seq;
int num;
};
__device__ collapsed xdev;
__global__
void kernel(const size_t item_sz)
{
if (threadIdx.x < xdev.num) {
char *p = xdev.seq[threadIdx.x];
char val = 0x30 + threadIdx.x;
for(size_t i=0; i<item_sz; i++) {
p[i] = val;
}
}
}
#define gpuQ(ans) { gpu_assert((ans), __FILE__, __LINE__); }
void gpu_assert(cudaError_t code, const char *file, const int line)
{
if (code != cudaSuccess)
{
std::cerr << "gpu_assert: " << cudaGetErrorString(code) << " "
<< file << " " << line << std::endl;
exit(code);
}
}
int main(void)
{
const int nitems = 32;
const size_t item_sz = 16;
const size_t buf_sz = size_t(nitems) * item_sz;
// Gpu memory for sequences
char *_buf;
gpuQ( cudaMalloc((void **)&_buf, buf_sz) );
gpuQ( cudaMemset(_buf, 0x7a, buf_sz) );
// Host array for holding sequence device pointers
char **seq = new char*[nitems];
size_t offset = 0;
for(int i=0; i<nitems; i++, offset += item_sz) {
seq[i] = _buf + offset;
}
// Device array holding sequence pointers
char **_seq;
size_t seq_sz = sizeof(char*) * size_t(nitems);
gpuQ( cudaMalloc((void **)&_seq, seq_sz) );
gpuQ( cudaMemcpy(_seq, seq, seq_sz, cudaMemcpyHostToDevice) );
// Host copy of the xdev structure to copy to the device
collapsed xdev_host;
xdev_host.num = nitems;
xdev_host.seq = _seq;
// Copy to device symbol
gpuQ( cudaMemcpyToSymbol(xdev, &xdev_host, sizeof(collapsed)) );
// Run Kernel
kernel<<<1,nitems>>>(item_sz);
// Copy back buffer
char *buf = new char[buf_sz];
gpuQ( cudaMemcpy(buf, _buf, buf_sz, cudaMemcpyDeviceToHost) );
// Print out seq values
// Each string should be ASCII starting from ´0´ (0x30)
char *seq_vals = buf;
for(int i=0; i<nitems; i++, seq_vals += item_sz) {
std::string s;
s.append(seq_vals, item_sz);
std::cout << s << std::endl;
}
return 0;
}
#包括
#包括
#包括
结构倒塌{
字符**seq;
int-num;
};
__装置_uuxdev;
__全球的__
无效内核(常量大小\u t项\u sz)
{
if(threadIdx.x 对于(size_t i=0;i是否x_dev指向设备对吗?如果我将x_dev更改为xdev,它仍然不起作用。如果我选择您建议的方式,它不会传递指向设备的指针的内部字符指针。它只传递结构指针。@Erogol:是的,x_dev是设备地址,但不是设备符号。它们不同。至于您的“不起作用”的评论,那是因为你(我猜)需要该结构的一些自动深度复制,但CUDA不支持深度复制。您需要首先手动分配和复制设备上的嵌套指针。如果您愿意阅读,有许多问题都有如何执行此操作的示例。我确实阅读了所有这些问题,但仍然无法执行此操作。折叠结构上的字符**e打破了StackOverflow中所有示例的用法。@Erogol:如果你能给我几个小时,我将尝试整理一个完整的深度副本工作示例,并将其添加到答案中。但目前为止,答案完全正确,如果你能接受,我将不胜感激。这是我的初始问题和确切的层次结构就像问题中一样,我有一个静态定义的“DataX”,我尝试了几十种不同的方法来实现它,但实际上没有任何效果。
$ /usr/local/cuda/bin/nvcc -arch=sm_12 -Xptxas=-v -g -G -o erogol erogol.cu
./erogol.cu(19): Warning: Cannot tell what pointer points to, assuming global memory space
ptxas info : 8 bytes gmem, 4 bytes cmem[14]
ptxas info : Compiling entry function '_Z6kernelm' for 'sm_12'
ptxas info : Used 5 registers, 20 bytes smem, 4 bytes cmem[1]
$ /usr/local/cuda/bin/cuda-memcheck ./erogol
========= CUDA-MEMCHECK
0000000000000000
1111111111111111
2222222222222222
3333333333333333
4444444444444444
5555555555555555
6666666666666666
7777777777777777
8888888888888888
9999999999999999
::::::::::::::::
;;;;;;;;;;;;;;;;
<<<<<<<<<<<<<<<<
================
>>>>>>>>>>>>>>>>
????????????????
@@@@@@@@@@@@@@@@
AAAAAAAAAAAAAAAA
BBBBBBBBBBBBBBBB
CCCCCCCCCCCCCCCC
DDDDDDDDDDDDDDDD
EEEEEEEEEEEEEEEE
FFFFFFFFFFFFFFFF
GGGGGGGGGGGGGGGG
HHHHHHHHHHHHHHHH
IIIIIIIIIIIIIIII
JJJJJJJJJJJJJJJJ
KKKKKKKKKKKKKKKK
LLLLLLLLLLLLLLLL
MMMMMMMMMMMMMMMM
NNNNNNNNNNNNNNNN
OOOOOOOOOOOOOOOO
========= ERROR SUMMARY: 0 errors