Deep learning GPU程序无法执行:cublas运行时错误

Deep learning GPU程序无法执行:cublas运行时错误,deep-learning,conv-neural-network,pytorch,Deep Learning,Conv Neural Network,Pytorch,我正在尝试在CUDA支持的GeForce GTX 1070 gpu上通过pytorch训练网络。我不理解这个错误,也没有发现任何类似的问题。我不知道这是cuda的问题还是我的代码中的什么 Traceback (most recent call last): File "main.py", line 497, in <module> main() File "main.py", line 167, in main train(train_loader, mode

我正在尝试在CUDA支持的GeForce GTX 1070 gpu上通过pytorch训练网络。我不理解这个错误,也没有发现任何类似的问题。我不知道这是cuda的问题还是我的代码中的什么

Traceback (most recent call last):
  File "main.py", line 497, in <module>
    main()
  File "main.py", line 167, in main
    train(train_loader, model, criterion, optimizer, epoch, normalizer)
  File "main.py", line 244, in train
    output = model(*input_var)
  File "C:\ProgramData\Anaconda3\lib\site-packages\torch\nn\modules\module.py", line 357, in __call__
    result = self.forward(*input, **kwargs)
  File "C:\Users\1546544\Desktop\ML\model.py", line 147, in forward
    atom_fea = conv_func(atom_fea, nbr_fea, nbr_fea_idx)
  File "C:\ProgramData\Anaconda3\lib\site-packages\torch\nn\modules\module.py", line 357, in __call__
    result = self.forward(*input, **kwargs)
  File "C:\Users\1546544\Desktop\ML\model.py", line 66, in forward
    total_gated_fea = self.fc_full(total_nbr_fea)
  File "C:\ProgramData\Anaconda3\lib\site-packages\torch\nn\modules\module.py", line 357, in __call__
    result = self.forward(*input, **kwargs)
  File "C:\ProgramData\Anaconda3\lib\site-packages\torch\nn\modules\linear.py", line 55, in forward
    return F.linear(input, self.weight, self.bias)
  File "C:\ProgramData\Anaconda3\lib\site-packages\torch\nn\functional.py", line 837, in linear
    output = input.matmul(weight.t())
  File "C:\ProgramData\Anaconda3\lib\site-packages\torch\autograd\variable.py", line 386, in matmul
    return torch.matmul(self, other)
  File "C:\ProgramData\Anaconda3\lib\site-packages\torch\functional.py", line 192, in matmul
    output = torch.mm(tensor1, tensor2)
RuntimeError: cublas runtime error : the GPU program failed to execute at C:/Anaconda2/conda-bld/pytorch_1519496000060/work/torch/lib/THC/THCBlas.cu:247
回溯(最近一次呼叫最后一次):
文件“main.py”,第497行,在
main()
文件“main.py”,第167行,在main中
列车(列车装载机、模型、标准、优化器、epoch、规范化器)
列车中第244行的文件“main.py”
输出=模型(*输入变量)
文件“C:\ProgramData\Anaconda3\lib\site packages\torch\nn\modules\module.py”,第357行,在调用中__
结果=自我转发(*输入,**kwargs)
文件“C:\Users\1546544\Desktop\ML\model.py”,第147行,前进
atom\u fea=conv\u func(atom\u fea、nbr\u fea、nbr\u fea\u idx)
文件“C:\ProgramData\Anaconda3\lib\site packages\torch\nn\modules\module.py”,第357行,在调用中__
结果=自我转发(*输入,**kwargs)
文件“C:\Users\1546544\Desktop\ML\model.py”,第66行,前进
总门控fea=自满(总nbr fea)
文件“C:\ProgramData\Anaconda3\lib\site packages\torch\nn\modules\module.py”,第357行,在调用中__
结果=自我转发(*输入,**kwargs)
文件“C:\ProgramData\Anaconda3\lib\site packages\torch\nn\modules\linear.py”,第55行,向前
返回F.linear(输入、自重、自偏压)
文件“C:\ProgramData\Anaconda3\lib\site packages\torch\nn\functional.py”,第837行,线性
输出=输入.matmul(weight.t())
文件“C:\ProgramData\Anaconda3\lib\site packages\torch\autograd\variable.py”,第386行,在matmul中
返回火炬。matmul(自身、其他)
文件“C:\ProgramData\Anaconda3\lib\site packages\torch\functional.py”,第192行,在matmul中
输出=火炬毫米(张量1,张量2)
RuntimeError:cublas运行时错误:GPU程序无法在C:/Anaconda2/conda bld/pytorch_1519496000060/work/torch/lib/THC/THCBlas.cu:247执行

我也面临同样的问题

I通过数据集标签更正修复了该问题。 我的意思是,我的数据集的训练标签不正确。这就是为什么它在
backward()过程中失败的原因


因此,从磁盘/数据库加载后检查预期标签可能会有所帮助。

你是如何安装PyTorch的?你能展示一些代码吗?干得好!!!我修正了这个错误。当我对40个类进行分类时,我使用线性(10)来解决这个问题