Tensorflow 在我自己的数据集上屏蔽RCNN资源耗尽（OOM）_Tensorflow_Memory_Resources_Gpu_Mask

Tensorflow 在我自己的数据集上屏蔽RCNN资源耗尽（OOM）

tensorflow memory

Tensorflow 在我自己的数据集上屏蔽RCNN资源耗尽（OOM）,tensorflow,memory,resources,gpu,mask,Tensorflow,Memory,Resources,Gpu,Mask,掩码RCNN资源耗尽所需的帮助- H/W-i7-8700，32G RAM，单ASUS ROG STRIX 1080ti（11GB）虚拟环境设置-tensorflow gpu==1.5.0，python==3.6.6，Cuda==9.0.176，cudnn==7.2.1 图像分辨率-最大宽度=900像素，最大高度=675像素，最小宽度=194像素，最小高度=150像素，11幅图像用于训练 S/W-每个GPU的图像=1（在类xxConfig（Config），xxx.py中），BACKBONE=“r

掩码RCNN资源耗尽所需的帮助-

H/W-i7-8700，32G RAM，单ASUS ROG STRIX 1080ti（11GB）

虚拟环境设置-tensorflow gpu==1.5.0，python==3.6.6，Cuda==9.0.176，cudnn==7.2.1

图像分辨率-最大宽度=900像素，最大高度=675像素，最小宽度=194像素，最小高度=150像素，11幅图像用于训练

S/W-每个GPU的图像=1（在类xxConfig（Config），xxx.py中），BACKBONE=“resnet50”，POST\u NMS\u ROIS\u TRAINING=1000，POST\u NMS\u ROIS\u INFERENCE=500，IMAGE\u RESIZE\u MODE=“square”，IMAGE\u MIN\u DIM=400，IMAGE\u MAX\u DIM=512，TRAIN\u ROIS\u PER\u IMAGE=100

让我感到奇怪的是，nvidia smi显示了用于python的小于300MB的内存，但终端显示了以下内容：

ResourceExhustederRor（回溯请参见上文）：当使用形状[3,3256256]和类型float on/job:localhost/replica:0/任务：0/设备：GPU:0由分配器GPU\U 0\bfc分配张量时，OOM [[Node:fpn_p5/random_uniform/RandomUniform=RandomUniformT=DT_INT32，dtype=DT_FLOAT，seed=87654321，seed2=5038409，_device=“/job:localhost/replica:0/任务：0/设备：GPU:0”]

默认情况下，Tensorflow分配所有GPU内存。因此，如果您在

nvidia smi

中只看到分配了700 MB，那么您很可能在Tensorflow中设置了一些选项来限制GPU内存，例如：

config.gpu_options.allow_growth = True

或

请删除此选项，然后重试。另请参见：默认情况下，Tensorflow分配所有GPU内存。因此，如果您在

nvidia smi

中只看到分配了700 MB，那么您很可能在Tensorflow中设置了一些选项来限制GPU内存，例如：

config.gpu_options.allow_growth = True

或

请删除此选项，然后重试。另请参见：

在将cudnn 7.2.1替换为7.0.5后，我现在能够使用1080ti gpu训练掩码RCNN，而不会出现资源耗尽（OOM）问题。

顺便说一句，使用相同的虚拟环境，然而，我能够训练“samples/shapes/train_shapes.ipynb”。这是因为cudnn版本吗？我重新启动，并显示重新启动后第一次运行的错误消息-E tensorflow/stream_executor/cuda/cuda_dnn.cc:378]已加载运行时CuDNN库：7201（兼容版本7200），但源代码是用7004（兼容版本7000）编译的。。。顺便说一句，layers='heads'使用相同的虚拟环境，我能够训练“samples/shapes/train_shapes.ipynb”。这是因为cudnn版本吗？我重新启动，并显示重新启动后第一次运行的错误消息-E tensorflow/stream_executor/cuda/cuda_dnn.cc:378]已加载运行时CuDNN库：7201（兼容版本7200），但源代码是用7004（兼容版本7000）编译的。。。谢谢你的建议。我检查了config.gpu_options.~然后用简单的代码在www.tensorflow.org上发布了这个问题>>完全没有问题。我怀疑我面临的问题是cudnn兼容性-。我现在正试图将cudnn从7.2.1降级到7.0.x。希望它能起作用！！谢谢你的建议。我检查了config.gpu_options.~然后用简单的代码在www.tensorflow.org上发布了这个问题>>完全没有问题。我怀疑我面临的问题是cudnn兼容性-。我现在正试图将cudnn从7.2.1降级到7.0.x。希望它能起作用！！