Python Tensorflow GPU错误：模型训练过程中资源耗尽_Python_Tensorflow

Python Tensorflow GPU错误：模型训练过程中资源耗尽

python tensorflow

Python Tensorflow GPU错误：模型训练过程中资源耗尽,python,tensorflow,Python,Tensorflow,我正在尝试在K80 GPU上训练一篇研究论文的模型实现，其中有12GB内存可供训练。数据集大约为23GB，数据提取后，对于训练脚本，数据集缩小到12GB 大约在第4640步max_steps为500000时，我收到以下错误消息，表示资源已耗尽，脚本很快停止。- 脚本开头的内存使用情况为：我研究了很多类似的问题，发现减小批量可能会有所帮助，但我已经将批量大小减小到50，错误仍然存在。除了切换到功能更强大的GPU之外，还有其他解决方案吗？这看起来不像是GPU内存不足的OOM错误，更像是本地驱动器

我正在尝试在K80 GPU上训练一篇研究论文的模型实现，其中有12GB内存可供训练。数据集大约为23GB，数据提取后，对于训练脚本，数据集缩小到12GB

大约在第4640步max_steps为500000时，我收到以下错误消息，表示资源已耗尽，脚本很快停止。-

脚本开头的内存使用情况为：

我研究了很多类似的问题，发现减小批量可能会有所帮助，但我已经将批量大小减小到50，错误仍然存在。除了切换到功能更强大的GPU之外，还有其他解决方案吗？

这看起来不像是GPU内存不足的OOM错误，更像是本地驱动器空间不足，无法保存模型的检查点

你确定你的磁盘上有足够的空间，或者你保存到的文件夹没有quotta吗？

我也认为它不是GPU OOM。如果你认为这是一个房间，那么，1。定期重新启动进程。检查每个步骤10000个步骤，停止培训过程并重新启动。这将重置内存碎片。2.将TF_CUDNN_WORKSPACE_LIMIT_IN_MB设置为较小的数字。默认值为4GB。正确，刚刚检查，磁盘空间不足。但在我检查答案之前，我已经解决了这个问题。不过，非常感谢：