Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/tensorflow/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Tensorflow 使用多个GPU和ModelCheckpoint进行培训会导致异常_Tensorflow_Deep Learning_Keras_Gpu - Fatal编程技术网

Tensorflow 使用多个GPU和ModelCheckpoint进行培训会导致异常

Tensorflow 使用多个GPU和ModelCheckpoint进行培训会导致异常,tensorflow,deep-learning,keras,gpu,Tensorflow,Deep Learning,Keras,Gpu,我正在用两个GPU(2xK80)和Keras(TensorFlow作为后端)训练一个1D CNN 我遇到的问题 问题是(我猜)我试图保存一个GPU的模型权重,而另一个GPU在训练的中间(或类似的东西),所以我相信我正在寻找一种方法来停止拟合过程,当完成时,保存权重,而不是进入下一个时代。< /P> 我收到的异常情况 File "/root/miniconda3/lib/python3.5/site-packages/keras/engine/topology.py", line 2622, in

我正在用两个GPU(2xK80)和Keras(TensorFlow作为后端)训练一个1D CNN

我遇到的问题

问题是(我猜)我试图保存一个GPU的模型权重,而另一个GPU在训练的中间(或类似的东西),所以我相信我正在寻找一种方法来停止拟合过程,当完成时,保存权重,而不是进入下一个时代。< /P> 我收到的异常情况

File "/root/miniconda3/lib/python3.5/site-packages/keras/engine/topology.py", line 2622, in load_weights
    load_weights_from_hdf5_group(f, self.layers)
  File "/root/miniconda3/lib/python3.5/site-packages/keras/engine/topology.py", line 3103, in load_weights_from_hdf5_group
    layer_names = [n.decode('utf8') for n in f.attrs['layer_names']]
  File "h5py/_objects.pyx", line 54, in h5py._objects.with_phil.wrapper
  File "h5py/_objects.pyx", line 55, in h5py._objects.with_phil.wrapper
  File "/root/miniconda3/lib/python3.5/site-packages/h5py/_hl/attrs.py", line 60, in __getitem__
    attr = h5a.open(self._id, self._e(name))
  File "h5py/_objects.pyx", line 54, in h5py._objects.with_phil.wrapper
  File "h5py/_objects.pyx", line 55, in h5py._objects.with_phil.wrapper
  File "h5py/h5a.pyx", line 77, in h5py.h5a.open
KeyError: "Can't open attribute (can't locate attribute: 'layer_names')"
root@algoGpu:/home/gpu_user/SourceCode/voc#
问题是
我如何在多个GPU上训练模型,同时使用ModelCheckpoint保存最佳历元的权重?

这里有什么问题?@NishantSingh“……我正在寻找一种方法,在完成拟合过程后停止拟合,保存权重,然后转到下一个历元。”但我以任何方式编辑了它。现在你知道如何帮助我了吗?也许你应该在while循环中使用time.sleep(1)来检查一个条件如果你发布了一个最小的中断示例,它可能会有所帮助。@luk32当我使用ModelCheckpoint训练模型(fit())时,我遇到了一个异常,就是这样。我从Keras提供的例子中得到了这个例外。这里的问题是什么?@NishantSingh“……我正在寻找一种方法,在健身完成后停止健身过程,保存体重,然后进入下一个时代。”但我以任何方式编辑了它。现在你知道如何帮助我了吗?也许你应该在while循环中使用time.sleep(1)来检查一个条件如果你发布了一个最小的中断示例,它可能会有所帮助。@luk32当我使用ModelCheckpoint训练模型(fit())时,我遇到了一个异常,就是这样。我从Keras提供的例子中得到了这个例外。