Kubernetes cudaErrorInsufficientDriver:CUDA驱动程序版本不足以支持CUDA运行时版本

Kubernetes cudaErrorInsufficientDriver:CUDA驱动程序版本不足以支持CUDA运行时版本,kubernetes,cuda,gpu,google-kubernetes-engine,Kubernetes,Cuda,Gpu,Google Kubernetes Engine,我在GKE上运行GPU实例,当所有东西都部署好后,我向上面提到的服务发出请求,出现错误 我遵循了中提到的所有步骤 这是我的文件 FROM nvidia/cuda:10.2-cudnn7-devel # install nginx # RUN apt-get update && apt-get install nginx vim -y --no-install-recommends # RUN ln -sf /dev/stdout /var/log/nginx/access.lo

我在GKE上运行GPU实例,当所有东西都部署好后,我向上面提到的服务发出请求,出现错误 我遵循了中提到的所有步骤 这是我的文件

FROM nvidia/cuda:10.2-cudnn7-devel

# install nginx
# RUN apt-get update && apt-get install nginx vim -y --no-install-recommends
# RUN ln -sf /dev/stdout /var/log/nginx/access.log \
#     && ln -sf /dev/stderr /var/log/nginx/error.log

## Setup 

RUN mkdir -p /opt/app

RUN apt-get update -y && \
    apt-get install -y --no-install-recommends \
    python3-dev \
    python3-pip \
    python3-wheel \
    python3-setuptools && \
    rm -rf /var/lib/apt/lists/* /var/cache/apt/archives/*

RUN pip3 install --no-cache-dir -U install setuptools pip
RUN pip3 install --no-cache-dir cupy_cuda102==8.0.0rc1 scipy optuna

COPY requirements.txt start.sh run.py uwsgi.ini utils.py /opt/app/
COPY shading_characteristics /opt/app/shading_characteristics

WORKDIR /opt/app
RUN pip install -r requirements.txt
RUN pip install --upgrade 'sentry-sdk[flask]'
RUN pip install uwsgi -I --no-cache-dir

EXPOSE 5000

## Start the server, giving permissions for script
# COPY nginx.conf /etc/nginx
RUN chmod +x ./start.sh 
RUN chmod -R 777 /root
CMD ["./start.sh"] 
2021年5月编辑

GKE现在正式支持NVIDIA驱动程序版本450.102.04,该版本支持CUDA 10.2。 请注意,需要GKE 1.19.8-GKE.1200及更高版本

正如您在Nvidia中看到的,CUDA 10.2要求Nvidia驱动程序版本>=440.33

由于官方提供的最新Nvidia驱动程序是418.74,因此目前可以使用的最新CUDA版本是10.1

如果您的应用程序或其他依赖项(如PyTorch)可以在CUDA 10.1中正常运行,那么最快的解决方案将是使用CUDA 10.1降级您的基本Docker映像

有很多方法可以在运行COS的GKE节点上安装较新的Nvidia驱动程序版本,但如果您不需要,我会坚持使用官方支持的GKE方法,并使用10.1。

编辑2021年5月

GKE现在正式支持NVIDIA驱动程序版本450.102.04,该版本支持CUDA 10.2。 请注意,需要GKE 1.19.8-GKE.1200及更高版本

正如您在Nvidia中看到的,CUDA 10.2要求Nvidia驱动程序版本>=440.33

由于官方提供的最新Nvidia驱动程序是418.74,因此目前可以使用的最新CUDA版本是10.1

如果您的应用程序或其他依赖项(如PyTorch)可以在CUDA 10.1中正常运行,那么最快的解决方案将是使用CUDA 10.1降级您的基本Docker映像


有很多方法可以在运行COS的GKE节点上安装较新的Nvidia驱动程序版本,但如果您不必安装,我会坚持使用官方支持的GKE方法,并使用10.1。

在COS 1.11.5+和Ubuntu 1.11.8-GKE.4+上,最新支持的CUDA版本都是10.0,1.12.6-gke.6+。最新支持的CUDA版本在COS 1.11.5+和Ubuntu 1.11.8-gke.4+、1.12.6-gke.6+上都是10.0。请注意,目前gke不支持CUDA 10.1。我自己也尝试过,当使用CUDA 10.1时,nvidia安装程序似乎没有正确安装CUDA。显然,GKE支持CUDA10.1并不是因为最新的Nvidia驱动程序是418.74。此外,文档中还明确指出,@Robert Crovella表示最新支持的CUDA版本为10.0。GKE文档表示它仅支持10.0,但根据NVIDIA驱动程序版本418.74支持CUDA 10.1。请注意,GKE目前不支持CUDA 10.1。我自己也尝试过,当使用CUDA 10.1时,nvidia安装程序似乎没有正确安装CUDA。显然,GKE支持CUDA10.1并不是因为最新的Nvidia驱动程序是418.74。此外,文档中还明确指出,@Robert Crovella表示最新支持的CUDA版本为10.0。GKE文档表示仅支持10.0,但根据NVIDIA驱动程序版本418.74,支持CUDA 10.1