Tensorflow 在我自己的数据集上屏蔽RCNN资源耗尽(OOM)

Tensorflow 在我自己的数据集上屏蔽RCNN资源耗尽(OOM),tensorflow,memory,resources,gpu,mask,Tensorflow,Memory,Resources,Gpu,Mask,掩码RCNN资源耗尽所需的帮助- H/W-i7-8700,32G RAM,单ASUS ROG STRIX 1080ti(11GB) 虚拟环境设置-tensorflow gpu==1.5.0,python==3.6.6,Cuda==9.0.176,cudnn==7.2.1 图像分辨率-最大宽度=900像素,最大高度=675像素,最小宽度=194像素,最小高度=150像素,11幅图像用于训练 S/W-每个GPU的图像=1(在类xxConfig(Config),xxx.py中),BACKBONE=“r

掩码RCNN资源耗尽所需的帮助-

H/W-i7-8700,32G RAM,单ASUS ROG STRIX 1080ti(11GB)

虚拟环境设置-tensorflow gpu==1.5.0,python==3.6.6,Cuda==9.0.176,cudnn==7.2.1

图像分辨率-最大宽度=900像素,最大高度=675像素,最小宽度=194像素,最小高度=150像素,11幅图像用于训练

S/W-每个GPU的图像=1(在类xxConfig(Config),xxx.py中),BACKBONE=“resnet50”,POST\u NMS\u ROIS\u TRAINING=1000,POST\u NMS\u ROIS\u INFERENCE=500,IMAGE\u RESIZE\u MODE=“square”,IMAGE\u MIN\u DIM=400,IMAGE\u MAX\u DIM=512,TRAIN\u ROIS\u PER\u IMAGE=100

让我感到奇怪的是,nvidia smi显示了用于python的小于300MB的内存,但终端显示了以下内容:

ResourceExhustederRor(回溯请参见上文):当使用形状[3,3256256]和类型float on/job:localhost/replica:0/任务:0/设备:GPU:0由分配器GPU\U 0\bfc分配张量时,OOM [[Node:fpn_p5/random_uniform/RandomUniform=RandomUniformT=DT_INT32,dtype=DT_FLOAT,seed=87654321,seed2=5038409,_device=“/job:localhost/replica:0/任务:0/设备:GPU:0”]


默认情况下,Tensorflow分配所有GPU内存。因此,如果您在
nvidia smi
中只看到分配了700 MB,那么您很可能在Tensorflow中设置了一些选项来限制GPU内存,例如:

config.gpu_options.allow_growth = True


请删除此选项,然后重试。另请参见:默认情况下,Tensorflow分配所有GPU内存。因此,如果您在
nvidia smi
中只看到分配了700 MB,那么您很可能在Tensorflow中设置了一些选项来限制GPU内存,例如:

config.gpu_options.allow_growth = True


请删除此选项,然后重试。另请参见:

在将cudnn 7.2.1替换为7.0.5后,我现在能够使用1080ti gpu训练掩码RCNN,而不会出现资源耗尽(OOM)问题。

在将cudnn 7.2.1替换为7.0.5后,我现在能够使用1080ti gpu训练掩码RCNN,而不会出现资源耗尽(OOM)问题。

顺便说一句,使用相同的虚拟环境,然而,我能够训练“samples/shapes/train_shapes.ipynb”。这是因为cudnn版本吗?我重新启动,并显示重新启动后第一次运行的错误消息-E tensorflow/stream_executor/cuda/cuda_dnn.cc:378]已加载运行时CuDNN库:7201(兼容版本7200),但源代码是用7004(兼容版本7000)编译的。。。顺便说一句,layers='heads'使用相同的虚拟环境,我能够训练“samples/shapes/train_shapes.ipynb”。这是因为cudnn版本吗?我重新启动,并显示重新启动后第一次运行的错误消息-E tensorflow/stream_executor/cuda/cuda_dnn.cc:378]已加载运行时CuDNN库:7201(兼容版本7200),但源代码是用7004(兼容版本7000)编译的。。。谢谢你的建议。我检查了config.gpu_options.~然后用简单的代码在www.tensorflow.org上发布了这个问题>>完全没有问题。我怀疑我面临的问题是cudnn兼容性-。我现在正试图将cudnn从7.2.1降级到7.0.x。希望它能起作用!!谢谢你的建议。我检查了config.gpu_options.~然后用简单的代码在www.tensorflow.org上发布了这个问题>>完全没有问题。我怀疑我面临的问题是cudnn兼容性-。我现在正试图将cudnn从7.2.1降级到7.0.x。希望它能起作用!!