Python Tensorflow GPU错误:模型训练过程中资源耗尽

Python Tensorflow GPU错误:模型训练过程中资源耗尽,python,tensorflow,Python,Tensorflow,我正在尝试在K80 GPU上训练一篇研究论文的模型实现,其中有12GB内存可供训练。数据集大约为23GB,数据提取后,对于训练脚本,数据集缩小到12GB 大约在第4640步max_steps为500000时,我收到以下错误消息,表示资源已耗尽,脚本很快停止。- 脚本开头的内存使用情况为: 我研究了很多类似的问题,发现减小批量可能会有所帮助,但我已经将批量大小减小到50,错误仍然存在。除了切换到功能更强大的GPU之外,还有其他解决方案吗?这看起来不像是GPU内存不足的OOM错误,更像是本地驱动器

我正在尝试在K80 GPU上训练一篇研究论文的模型实现,其中有12GB内存可供训练。数据集大约为23GB,数据提取后,对于训练脚本,数据集缩小到12GB

大约在第4640步max_steps为500000时,我收到以下错误消息,表示资源已耗尽,脚本很快停止。-

脚本开头的内存使用情况为:


我研究了很多类似的问题,发现减小批量可能会有所帮助,但我已经将批量大小减小到50,错误仍然存在。除了切换到功能更强大的GPU之外,还有其他解决方案吗?

这看起来不像是GPU内存不足的OOM错误,更像是本地驱动器空间不足,无法保存模型的检查点


你确定你的磁盘上有足够的空间,或者你保存到的文件夹没有quotta吗?

我也认为它不是GPU OOM。如果你认为这是一个房间,那么,1。定期重新启动进程。检查每个步骤10000个步骤,停止培训过程并重新启动。这将重置内存碎片。2.将TF_CUDNN_WORKSPACE_LIMIT_IN_MB设置为较小的数字。默认值为4GB。正确,刚刚检查,磁盘空间不足。但在我检查答案之前,我已经解决了这个问题。不过,非常感谢: