Kubernetes cudaErrorInsufficientDriver:CUDA驱动程序版本不足以支持CUDA运行时版本
我在GKE上运行GPU实例,当所有东西都部署好后,我向上面提到的服务发出请求,出现错误 我遵循了中提到的所有步骤 这是我的文件Kubernetes cudaErrorInsufficientDriver:CUDA驱动程序版本不足以支持CUDA运行时版本,kubernetes,cuda,gpu,google-kubernetes-engine,Kubernetes,Cuda,Gpu,Google Kubernetes Engine,我在GKE上运行GPU实例,当所有东西都部署好后,我向上面提到的服务发出请求,出现错误 我遵循了中提到的所有步骤 这是我的文件 FROM nvidia/cuda:10.2-cudnn7-devel # install nginx # RUN apt-get update && apt-get install nginx vim -y --no-install-recommends # RUN ln -sf /dev/stdout /var/log/nginx/access.lo
FROM nvidia/cuda:10.2-cudnn7-devel
# install nginx
# RUN apt-get update && apt-get install nginx vim -y --no-install-recommends
# RUN ln -sf /dev/stdout /var/log/nginx/access.log \
# && ln -sf /dev/stderr /var/log/nginx/error.log
## Setup
RUN mkdir -p /opt/app
RUN apt-get update -y && \
apt-get install -y --no-install-recommends \
python3-dev \
python3-pip \
python3-wheel \
python3-setuptools && \
rm -rf /var/lib/apt/lists/* /var/cache/apt/archives/*
RUN pip3 install --no-cache-dir -U install setuptools pip
RUN pip3 install --no-cache-dir cupy_cuda102==8.0.0rc1 scipy optuna
COPY requirements.txt start.sh run.py uwsgi.ini utils.py /opt/app/
COPY shading_characteristics /opt/app/shading_characteristics
WORKDIR /opt/app
RUN pip install -r requirements.txt
RUN pip install --upgrade 'sentry-sdk[flask]'
RUN pip install uwsgi -I --no-cache-dir
EXPOSE 5000
## Start the server, giving permissions for script
# COPY nginx.conf /etc/nginx
RUN chmod +x ./start.sh
RUN chmod -R 777 /root
CMD ["./start.sh"]
2021年5月编辑
GKE现在正式支持NVIDIA驱动程序版本450.102.04,该版本支持CUDA 10.2。
请注意,需要GKE 1.19.8-GKE.1200及更高版本
正如您在Nvidia中看到的,CUDA 10.2要求Nvidia驱动程序版本>=440.33
由于官方提供的最新Nvidia驱动程序是418.74,因此目前可以使用的最新CUDA版本是10.1
如果您的应用程序或其他依赖项(如PyTorch)可以在CUDA 10.1中正常运行,那么最快的解决方案将是使用CUDA 10.1降级您的基本Docker映像
有很多方法可以在运行COS的GKE节点上安装较新的Nvidia驱动程序版本,但如果您不需要,我会坚持使用官方支持的GKE方法,并使用10.1。编辑2021年5月
GKE现在正式支持NVIDIA驱动程序版本450.102.04,该版本支持CUDA 10.2。
请注意,需要GKE 1.19.8-GKE.1200及更高版本
正如您在Nvidia中看到的,CUDA 10.2要求Nvidia驱动程序版本>=440.33
由于官方提供的最新Nvidia驱动程序是418.74,因此目前可以使用的最新CUDA版本是10.1
如果您的应用程序或其他依赖项(如PyTorch)可以在CUDA 10.1中正常运行,那么最快的解决方案将是使用CUDA 10.1降级您的基本Docker映像
有很多方法可以在运行COS的GKE节点上安装较新的Nvidia驱动程序版本,但如果您不必安装,我会坚持使用官方支持的GKE方法,并使用10.1。在COS 1.11.5+和Ubuntu 1.11.8-GKE.4+上,最新支持的CUDA版本都是10.0,1.12.6-gke.6+。最新支持的CUDA版本在COS 1.11.5+和Ubuntu 1.11.8-gke.4+、1.12.6-gke.6+上都是10.0。请注意,目前gke不支持CUDA 10.1。我自己也尝试过,当使用CUDA 10.1时,nvidia安装程序似乎没有正确安装CUDA。显然,GKE支持CUDA10.1并不是因为最新的Nvidia驱动程序是418.74。此外,文档中还明确指出,@Robert Crovella表示最新支持的CUDA版本为10.0。GKE文档表示它仅支持10.0,但根据NVIDIA驱动程序版本418.74支持CUDA 10.1。请注意,GKE目前不支持CUDA 10.1。我自己也尝试过,当使用CUDA 10.1时,nvidia安装程序似乎没有正确安装CUDA。显然,GKE支持CUDA10.1并不是因为最新的Nvidia驱动程序是418.74。此外,文档中还明确指出,@Robert Crovella表示最新支持的CUDA版本为10.0。GKE文档表示仅支持10.0,但根据NVIDIA驱动程序版本418.74,支持CUDA 10.1