C++ nvcc编译后的分段错误

C++ nvcc编译后的分段错误,c++,c,cuda,segmentation-fault,nvcc,C++,C,Cuda,Segmentation Fault,Nvcc,我使用NVIDIA的nvcc编译器测试了以下简单代码。当我尝试运行程序时,如果N的值小于或等于512,它运行正常。但当我尝试将N设置为大于512并运行时,它会出现分段错误。这是什么原因 #define N 1024 //changing value int main(int argc, char *argv[]) { float hA[N][N], hB[N][N], hC[N][N]; for (int i = 0; i < N; i++) { for

我使用NVIDIA的nvcc编译器测试了以下简单代码。当我尝试运行程序时,如果N的值小于或等于512,它运行正常。但当我尝试将N设置为大于512并运行时,它会出现分段错误。这是什么原因

#define N 1024 //changing value
int main(int argc, char *argv[]) {

    float hA[N][N], hB[N][N], hC[N][N];

    for (int i = 0; i < N; i++) {
        for (int j = 0; j < N; j++) {
            hA[i][j] = 1;
            hB[i][j] = 1;
        }
    }
}
#定义N 1024//更改值
int main(int argc,char*argv[]){
浮动hA[N][N]、hB[N][N]、hC[N][N];
对于(int i=0;i
基本上有两种方法可以分配矩阵,最常见的是使用指向浮点的指针,然后首先分配外部维度,然后在循环中分配内部维度:

float** hA = new float*[N];
for (size_t i = 0; i < N; ++i)
    hA[i] = new float[N];

但所有这些都没有实际意义,因为您不妨使用:

std::载体hA(N);
对于(尺寸i=0;i
堆栈溢出?阵列对于堆栈可能太大,因此可能需要动态分配(请查看
std::vector
)。在普通工作站上,进程可用的堆栈量通常在一位数兆字节范围内。这些矩阵使用12兆的堆栈。3个数组总共包含3145728个元素。这可能是堆栈溢出。我的意思是
std::vector hA(N*N)等,然后巧妙地使用索引。C/C++不是一种语言。我的建议仅限于C++。值得注意的是,NVCC不是编译器,主机平台编译器正在编译代码,这个问题本身与CUDA无关。<代码>数组<代码> > <代码>数组/>代码将有相同的问题。OP将需要一个
向量
。向量向量或指针数组对于将在GPU计算代码中使用的存储来说是一个非常糟糕的选择。它们不便于携带。最好使用简单的平面NxN动态内存分配。
float (*hA)[N] = new (float[N])[N];
std::vector<std::vector<float>> hA(N);
for (size_t i = 0; i < N; ++i)
    hA[i].push_back(std::vector<float>(N));