Python Tensorflow GPU在培训期间保存检查点时卡住-也没有使用整个GPU，不确定原因_Python_Tensorflow

Python Tensorflow GPU在培训期间保存检查点时卡住-也没有使用整个GPU，不确定原因

python tensorflow

Python Tensorflow GPU在培训期间保存检查点时卡住-也没有使用整个GPU，不确定原因,python,tensorflow,Python,Tensorflow,GPU:Nvidia GTX 2070 Python版本：3.5 Tensorflow:1.13.1 CUDA:10 cuDNN:7.4 型号：Faster-RCNN-Inception-V2 我正在使用传统的方法来训练我的模型（trian.py），当我这样运行它时 python train.py--logtostderr--train\u dir=training/--pipeline\u config\u path=training/faster\u rcnn\u inception\u v

GPU:Nvidia GTX 2070

Python版本：3.5

Tensorflow:1.13.1

CUDA:10

cuDNN:7.4

型号：Faster-RCNN-Inception-V2

我正在使用传统的方法来训练我的模型（trian.py），当我这样运行它时

python train.py--logtostderr--train\u dir=training/--pipeline\u config\u path=training/faster\u rcnn\u inception\u v2\u pets.config

训练会随机运行一段时间（通常会在第150步左右卡住，但有时在我尝试时会达到300-700），然后会在尝试保存检查点时卡住。我达到了它刚刚说的程度

信息：tensorflow:全局步骤864:损耗=0.4430（0.996秒/步）

信息：tensorflow:将检查点保存到路径培训/model.ckpt

而且不会超过那个点。一旦它达到这一点，无论我尝试哪种方法，我也无法杀死程序，如果我想停止进程，我必须简单地关闭终端窗口

此外，根据我所读到的，理论上该程序在训练时应该使用接近100%的GPU，但最终只使用了大约10%。我不确定这两件事是否相关，但我觉得这可能值得一提，特别是考虑到如果我真的能让它工作的话，我想让它尽快训练

在过去，我曾看到其他人就类似的问题发帖，但似乎没有人给出任何答案。如果有人有任何想法，请让我知道！谢谢< P>有相同的问题。

此后，训练没有停止或冻结。

< P>在英伟达驱动程序从版本441.28升级到最新版本之前，都有相同的问题。

在此之后，培训将不停止运行或冻结。

您是否检查了RAM的使用情况？我想你的公羊在训练时会溢出来。另外，要在GPU上运行代码，您需要使用

tensorflow GPU

Hi，我也面临类似的问题。我使用的是tensorflow gpu 1.14，有完全相同的问题。你设法解决了这个问题吗？我怀疑这是一个记忆问题。我的GPU内存为6.7/8 gb，而我的共享GPU内存使用率为0.1/8 gb。此外，我确实在网上看到一些帖子，内容是关于人们说他们的TFR记录有问题。您可以在这里查看：您是否检查了RAM使用情况？我想你的公羊在训练时会溢出来。另外，要在GPU上运行代码，您需要使用

tensorflow GPU