Python 3.x Torch在带有深度学习容器的gcloud上看不到gpu
我试图在GCloud中的kubernetes上运行一些python代码,我使用Pytork,对于基本映像,我使用gcr.io/deeplearning platform release/Pytork gpu/ 一切都运转良好,我的模型进行训练,但只使用CPU。当我运行以下命令时Python 3.x Torch在带有深度学习容器的gcloud上看不到gpu,python-3.x,kubernetes,google-cloud-platform,pytorch,gcloud,Python 3.x,Kubernetes,Google Cloud Platform,Pytorch,Gcloud,我试图在GCloud中的kubernetes上运行一些python代码,我使用Pytork,对于基本映像,我使用gcr.io/deeplearning platform release/Pytork gpu/ 一切都运转良好,我的模型进行训练,但只使用CPU。当我运行以下命令时 >>> import torch >>> torch.cuda.is_available() /opt/conda/lib/python3.7/site-packages/torch/
>>> import torch
>>> torch.cuda.is_available()
/opt/conda/lib/python3.7/site-packages/torch/cuda/__init__.py:52: UserWarning: CUDA initialization: CUDA driver initialization failed, you might not have a CUDA gpu. (Triggered internally at /opt/conda/conda-bld/pytorch_1614378098133/work/c10/cuda/CUDAFunctions.cpp:109.)
return torch._C._cuda_getDeviceCount() > 0
False
但这是nvidia smi的输出
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 418.67 Driver Version: 418.67 CUDA Version: 10.1 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|===============================+======================+======================|
| 0 Tesla K80 Off | 00000000:00:04.0 Off | 0 |
| N/A 62C P8 32W / 149W | 11MiB / 11441MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
+-----------------------------------------------------------------------------+
| Processes: GPU Memory |
| GPU PID Type Process name Usage |
|=============================================================================|
| No running processes found |
+-----------------------------------------------------------------------------+
pytorch的版本是由基础图像给出的,所以我不确定如何修复这个问题。任何帮助都将不胜感激
编辑:
编辑两个:
>>> torch.version.cuda
'11.1'
问题是您有一个支持CUDA 10.1的NVIDIA驱动程序,并且您安装了一个基于CUDA 11.1的PyTorch。要解决该问题,您可以:
pip安装火炬==1.8.0+cu101火炬视觉==0.9.0+cu101火炬视觉==0.8.0-fhttps://download.pytorch.org/whl/torch_stable.html
您可以查看中CUDA 10.1的可用版本(那些在
cu101/
中的版本)请用PyTorch版本更新问题:torch.\uu版本\uuuuuu
为了了解您的情况,我需要一些更多信息。您是否按照创建实例组并将GPU添加到每个实例?另外,在创建实例组后,应该安装设备驱动程序。因此,应用程序可以访问设备,。你安装驱动程序了吗?谢谢你的回答。我没有自己创建节点池。只负责让它工作。在节点池详细信息下,我可以看到1个NVIDIA Tesla K80作为gpu加速器pr节点。@Berriel我已经用torrch更新了version@Shadesfear作为健全性检查,您能否提供火炬.version.cuda的输出?
>>> torch.version.cuda
'11.1'