Python 3.x Torch在带有深度学习容器的gcloud上看不到gpu_Python 3.x_Kubernetes_Google Cloud Platform_Pytorch_Gcloud

Python 3.x Torch在带有深度学习容器的gcloud上看不到gpu

python-3.x kubernetes google-cloud-platform pytorch

Python 3.x Torch在带有深度学习容器的gcloud上看不到gpu,python-3.x,kubernetes,google-cloud-platform,pytorch,gcloud,Python 3.x,Kubernetes,Google Cloud Platform,Pytorch,Gcloud,我试图在GCloud中的kubernetes上运行一些python代码，我使用Pytork，对于基本映像，我使用gcr.io/deeplearning platform release/Pytork gpu/ 一切都运转良好，我的模型进行训练，但只使用CPU。当我运行以下命令时 >>> import torch >>> torch.cuda.is_available() /opt/conda/lib/python3.7/site-packages/torch/

我试图在GCloud中的kubernetes上运行一些python代码，我使用Pytork，对于基本映像，我使用gcr.io/deeplearning platform release/Pytork gpu/

一切都运转良好，我的模型进行训练，但只使用CPU。当我运行以下命令时

>>> import torch
>>> torch.cuda.is_available()
/opt/conda/lib/python3.7/site-packages/torch/cuda/__init__.py:52: UserWarning: CUDA    initialization: CUDA driver initialization failed, you might not have a CUDA gpu. (Triggered internally at  /opt/conda/conda-bld/pytorch_1614378098133/work/c10/cuda/CUDAFunctions.cpp:109.)
return torch._C._cuda_getDeviceCount() > 0
False

但这是nvidia smi的输出

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 418.67       Driver Version: 418.67       CUDA Version: 10.1     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  Tesla K80           Off  | 00000000:00:04.0 Off |                    0 |
| N/A   62C    P8    32W / 149W |     11MiB / 11441MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID   Type   Process name                             Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+

pytorch的版本是由基础图像给出的，所以我不确定如何修复这个问题。任何帮助都将不胜感激

编辑：

编辑两个：

>>> torch.version.cuda
'11.1'

问题是您有一个支持CUDA 10.1的NVIDIA驱动程序，并且您安装了一个基于CUDA 11.1的PyTorch。要解决该问题，您可以：

将NVIDIA驱动程序更新为支持CUDA 11.1的驱动程序，或

安装与CUDA 10.1兼容的PyTorch（与您的NVIDIA驱动程序兼容）

对于选项2，您只需运行以下命令：

pip安装火炬==1.8.0+cu101火炬视觉==0.9.0+cu101火炬视觉==0.8.0-fhttps://download.pytorch.org/whl/torch_stable.html

您可以查看中CUDA 10.1的可用版本（那些在

cu101/

中的版本）

请用PyTorch版本更新问题：

torch.\uu版本\uuuuuu

为了了解您的情况，我需要一些更多信息。您是否按照创建实例组并将GPU添加到每个实例？另外，在创建实例组后，应该安装设备驱动程序。因此，应用程序可以访问设备，。你安装驱动程序了吗？谢谢你的回答。我没有自己创建节点池。只负责让它工作。在节点池详细信息下，我可以看到1个NVIDIA Tesla K80作为gpu加速器pr节点。@Berriel我已经用torrch更新了version@Shadesfear作为健全性检查，您能否提供火炬.version.cuda的输出？

>>> torch.version.cuda
'11.1'