C++ nvcc编译后的分段错误_C++_C_Cuda_Segmentation Fault_Nvcc

C++ nvcc编译后的分段错误

c++ c cuda

C++ nvcc编译后的分段错误,c++,c,cuda,segmentation-fault,nvcc,C++,C,Cuda,Segmentation Fault,Nvcc,我使用NVIDIA的nvcc编译器测试了以下简单代码。当我尝试运行程序时，如果N的值小于或等于512，它运行正常。但当我尝试将N设置为大于512并运行时，它会出现分段错误。这是什么原因 #define N 1024 //changing value int main(int argc, char *argv[]) { float hA[N][N], hB[N][N], hC[N][N]; for (int i = 0; i < N; i++) { for

我使用NVIDIA的nvcc编译器测试了以下简单代码。当我尝试运行程序时，如果N的值小于或等于512，它运行正常。但当我尝试将N设置为大于512并运行时，它会出现分段错误。这是什么原因

#define N 1024 //changing value
int main(int argc, char *argv[]) {

    float hA[N][N], hB[N][N], hC[N][N];

    for (int i = 0; i < N; i++) {
        for (int j = 0; j < N; j++) {
            hA[i][j] = 1;
            hB[i][j] = 1;
        }
    }
}

#定义N 1024//更改值
int main（int argc，char*argv[]）{
浮动hA[N][N]、hB[N][N]、hC[N][N]；
对于（int i=0；i

基本上有两种方法可以分配矩阵，最常见的是使用指向浮点的指针，然后首先分配外部维度，然后在循环中分配内部维度：

float** hA = new float*[N];
for (size_t i = 0; i < N; ++i)
    hA[i] = new float[N];

但所有这些都没有实际意义，因为您不妨使用：

std：：载体hA（N）；
对于（尺寸i=0；i

堆栈溢出？阵列对于堆栈可能太大，因此可能需要动态分配（请查看

std:：vector

）。在普通工作站上，进程可用的堆栈量通常在一位数兆字节范围内。这些矩阵使用12兆的堆栈。3个数组总共包含3145728个元素。这可能是堆栈溢出。我的意思是

std:：vector hA（N*N）等，然后巧妙地使用索引。C/C++不是一种语言。我的建议仅限于C++。值得注意的是，NVCC不是编译器，主机平台编译器正在编译代码，这个问题本身与CUDA无关。<代码>数组<代码> > <代码>数组/>代码将有相同的问题。OP将需要一个向量。向量向量或指针数组对于将在GPU计算代码中使用的存储来说是一个非常糟糕的选择。它们不便于携带。最好使用简单的平面NxN动态内存分配。
float (*hA)[N] = new (float[N])[N];

std::vector<std::vector<float>> hA(N);
for (size_t i = 0; i < N; ++i)
    hA[i].push_back(std::vector<float>(N));