Tensorflow 使用多个GPU和ModelCheckpoint进行培训会导致异常_Tensorflow_Deep Learning_Keras_Gpu

Tensorflow 使用多个GPU和ModelCheckpoint进行培训会导致异常

tensorflow deep-learning keras

Tensorflow 使用多个GPU和ModelCheckpoint进行培训会导致异常,tensorflow,deep-learning,keras,gpu,Tensorflow,Deep Learning,Keras,Gpu,我正在用两个GPU（2xK80）和Keras（TensorFlow作为后端）训练一个1D CNN 我遇到的问题问题是（我猜）我试图保存一个GPU的模型权重，而另一个GPU在训练的中间（或类似的东西），所以我相信我正在寻找一种方法来停止拟合过程，当完成时，保存权重，而不是进入下一个时代。< /P> 我收到的异常情况 File "/root/miniconda3/lib/python3.5/site-packages/keras/engine/topology.py", line 2622, in

我正在用两个GPU（2xK80）和Keras（TensorFlow作为后端）训练一个1D CNN

我遇到的问题

问题是（我猜）我试图保存一个GPU的模型权重，而另一个GPU在训练的中间（或类似的东西），所以我相信我正在寻找一种方法来停止拟合过程，当完成时，保存权重，而不是进入下一个时代。< /P> 我收到的异常情况

File "/root/miniconda3/lib/python3.5/site-packages/keras/engine/topology.py", line 2622, in load_weights
    load_weights_from_hdf5_group(f, self.layers)
  File "/root/miniconda3/lib/python3.5/site-packages/keras/engine/topology.py", line 3103, in load_weights_from_hdf5_group
    layer_names = [n.decode('utf8') for n in f.attrs['layer_names']]
  File "h5py/_objects.pyx", line 54, in h5py._objects.with_phil.wrapper
  File "h5py/_objects.pyx", line 55, in h5py._objects.with_phil.wrapper
  File "/root/miniconda3/lib/python3.5/site-packages/h5py/_hl/attrs.py", line 60, in __getitem__
    attr = h5a.open(self._id, self._e(name))
  File "h5py/_objects.pyx", line 54, in h5py._objects.with_phil.wrapper
  File "h5py/_objects.pyx", line 55, in h5py._objects.with_phil.wrapper
  File "h5py/h5a.pyx", line 77, in h5py.h5a.open
KeyError: "Can't open attribute (can't locate attribute: 'layer_names')"
root@algoGpu:/home/gpu_user/SourceCode/voc#

问题是

我如何在多个GPU上训练模型，同时使用ModelCheckpoint保存最佳历元的权重？

这里有什么问题？@NishantSingh“……我正在寻找一种方法，在完成拟合过程后停止拟合，保存权重，然后转到下一个历元。”但我以任何方式编辑了它。现在你知道如何帮助我了吗？也许你应该在while循环中使用time.sleep（1）来检查一个条件如果你发布了一个最小的中断示例，它可能会有所帮助。@luk32当我使用ModelCheckpoint训练模型（fit（））时，我遇到了一个异常，就是这样。我从Keras提供的例子中得到了这个例外。这里的问题是什么？@NishantSingh“……我正在寻找一种方法，在健身完成后停止健身过程，保存体重，然后进入下一个时代。”但我以任何方式编辑了它。现在你知道如何帮助我了吗？也许你应该在while循环中使用time.sleep（1）来检查一个条件如果你发布了一个最小的中断示例，它可能会有所帮助。@luk32当我使用ModelCheckpoint训练模型（fit（））时，我遇到了一个异常，就是这样。我从Keras提供的例子中得到了这个例外。