Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/333.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python Tensorflow GPU在培训期间保存检查点时卡住-也没有使用整个GPU,不确定原因_Python_Tensorflow - Fatal编程技术网

Python Tensorflow GPU在培训期间保存检查点时卡住-也没有使用整个GPU,不确定原因

Python Tensorflow GPU在培训期间保存检查点时卡住-也没有使用整个GPU,不确定原因,python,tensorflow,Python,Tensorflow,GPU:Nvidia GTX 2070 Python版本:3.5 Tensorflow:1.13.1 CUDA:10 cuDNN:7.4 型号:Faster-RCNN-Inception-V2 我正在使用传统的方法来训练我的模型(trian.py),当我这样运行它时 python train.py--logtostderr--train\u dir=training/--pipeline\u config\u path=training/faster\u rcnn\u inception\u v

GPU:Nvidia GTX 2070

Python版本:3.5

Tensorflow:1.13.1

CUDA:10

cuDNN:7.4

型号:Faster-RCNN-Inception-V2

我正在使用传统的方法来训练我的模型(trian.py),当我这样运行它时

python train.py--logtostderr--train\u dir=training/--pipeline\u config\u path=training/faster\u rcnn\u inception\u v2\u pets.config

训练会随机运行一段时间(通常会在第150步左右卡住,但有时在我尝试时会达到300-700),然后会在尝试保存检查点时卡住。我达到了它刚刚说的程度

信息:tensorflow:全局步骤864:损耗=0.4430(0.996秒/步)

信息:tensorflow:将检查点保存到路径培训/model.ckpt

信息:tensorflow:将检查点保存到路径培训/model.ckpt

而且不会超过那个点。一旦它达到这一点,无论我尝试哪种方法,我也无法杀死程序,如果我想停止进程,我必须简单地关闭终端窗口

此外,根据我所读到的,理论上该程序在训练时应该使用接近100%的GPU,但最终只使用了大约10%。我不确定这两件事是否相关,但我觉得这可能值得一提,特别是考虑到如果我真的能让它工作的话,我想让它尽快训练


在过去,我曾看到其他人就类似的问题发帖,但似乎没有人给出任何答案。如果有人有任何想法,请让我知道!谢谢< P>有相同的问题。
此后,训练没有停止或冻结。

< P>在英伟达驱动程序从版本441.28升级到最新版本之前,都有相同的问题。
在此之后,培训将不停止运行或冻结。

您是否检查了RAM的使用情况?我想你的公羊在训练时会溢出来。另外,要在GPU上运行代码,您需要使用
tensorflow GPU
Hi,我也面临类似的问题。我使用的是tensorflow gpu 1.14,有完全相同的问题。你设法解决了这个问题吗?我怀疑这是一个记忆问题。我的GPU内存为6.7/8 gb,而我的共享GPU内存使用率为0.1/8 gb。此外,我确实在网上看到一些帖子,内容是关于人们说他们的TFR记录有问题。您可以在这里查看:您是否检查了RAM使用情况?我想你的公羊在训练时会溢出来。另外,要在GPU上运行代码,您需要使用
tensorflow GPU
Hi,我也面临类似的问题。我使用的是tensorflow gpu 1.14,有完全相同的问题。你设法解决了这个问题吗?我怀疑这是一个记忆问题。我的GPU内存为6.7/8 gb,而我的共享GPU内存使用率为0.1/8 gb。此外,我确实在网上看到一些帖子,内容是关于人们说他们的TFR记录有问题。您可以在这里查看: