Warning: file_get_contents(/data/phpspider/zhask/data//catemap/5/tfs/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 3.x Torch在带有深度学习容器的gcloud上看不到gpu_Python 3.x_Kubernetes_Google Cloud Platform_Pytorch_Gcloud - Fatal编程技术网

Python 3.x Torch在带有深度学习容器的gcloud上看不到gpu

Python 3.x Torch在带有深度学习容器的gcloud上看不到gpu,python-3.x,kubernetes,google-cloud-platform,pytorch,gcloud,Python 3.x,Kubernetes,Google Cloud Platform,Pytorch,Gcloud,我试图在GCloud中的kubernetes上运行一些python代码,我使用Pytork,对于基本映像,我使用gcr.io/deeplearning platform release/Pytork gpu/ 一切都运转良好,我的模型进行训练,但只使用CPU。当我运行以下命令时 >>> import torch >>> torch.cuda.is_available() /opt/conda/lib/python3.7/site-packages/torch/

我试图在GCloud中的kubernetes上运行一些python代码,我使用Pytork,对于基本映像,我使用gcr.io/deeplearning platform release/Pytork gpu/

一切都运转良好,我的模型进行训练,但只使用CPU。当我运行以下命令时

>>> import torch
>>> torch.cuda.is_available()
/opt/conda/lib/python3.7/site-packages/torch/cuda/__init__.py:52: UserWarning: CUDA    initialization: CUDA driver initialization failed, you might not have a CUDA gpu. (Triggered internally at  /opt/conda/conda-bld/pytorch_1614378098133/work/c10/cuda/CUDAFunctions.cpp:109.)
return torch._C._cuda_getDeviceCount() > 0
False
但这是nvidia smi的输出

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 418.67       Driver Version: 418.67       CUDA Version: 10.1     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  Tesla K80           Off  | 00000000:00:04.0 Off |                    0 |
| N/A   62C    P8    32W / 149W |     11MiB / 11441MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID   Type   Process name                             Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+
pytorch的版本是由基础图像给出的,所以我不确定如何修复这个问题。任何帮助都将不胜感激

编辑:

编辑两个:

>>> torch.version.cuda
'11.1'

问题是您有一个支持CUDA 10.1的NVIDIA驱动程序,并且您安装了一个基于CUDA 11.1的PyTorch。要解决该问题,您可以:

  • 将NVIDIA驱动程序更新为支持CUDA 11.1的驱动程序,或
  • 安装与CUDA 10.1兼容的PyTorch(与您的NVIDIA驱动程序兼容)
  • 对于选项2,您只需运行以下命令:

    pip安装火炬==1.8.0+cu101火炬视觉==0.9.0+cu101火炬视觉==0.8.0-fhttps://download.pytorch.org/whl/torch_stable.html
    

    您可以查看中CUDA 10.1的可用版本(那些在
    cu101/
    中的版本)

    请用PyTorch版本更新问题:
    torch.\uu版本\uuuuuu
    为了了解您的情况,我需要一些更多信息。您是否按照创建实例组并将GPU添加到每个实例?另外,在创建实例组后,应该安装设备驱动程序。因此,应用程序可以访问设备,。你安装驱动程序了吗?谢谢你的回答。我没有自己创建节点池。只负责让它工作。在节点池详细信息下,我可以看到1个NVIDIA Tesla K80作为gpu加速器pr节点。@Berriel我已经用torrch更新了version@Shadesfear作为健全性检查,您能否提供火炬.version.cuda的输出?
    >>> torch.version.cuda
    '11.1'