Tensorflow 受监控的培训课程保存所有检查点
使用Tensorflow 受监控的培训课程保存所有检查点,tensorflow,Tensorflow,使用tf.train.MonitoredTrainingSession时,是否可以保存所有检查点。 它有一个参数(save\u checkpoint\u secs=600)来指定要保存多少检查点,但没有选项来指定可以保存多少检查点 使用简单的tf.train.Saver()时,有一个选项指定max\u to_keep您可以使用tf.train.Scaffold将tf.train.Saver传递给tf.train.MonitoredTrainingSession: import tensorflo
tf.train.MonitoredTrainingSession
时,是否可以保存所有检查点。
它有一个参数(save\u checkpoint\u secs=600
)来指定要保存多少检查点,但没有选项来指定可以保存多少检查点
使用简单的
tf.train.Saver()
时,有一个选项指定max\u to_keep
您可以使用tf.train.Scaffold
将tf.train.Saver
传递给tf.train.MonitoredTrainingSession
:
import tensorflow as tf
scaffold = tf.train.Scaffold(saver=tf.train.Saver(max_to_keep=10))
with tf.train.MonitoredTrainingSession(scaffold=scaffold) as sess:
...
对不起,这次来晚了一点。如果您使用的是tf.train.saver,则不会从受监控会话中指定任何saver信息,否则将覆盖来自saver的所有信息
Scaffold
对我有效。由于某种原因,CheckpointSaverHook
没有保持正确的检查点数量。对于每次运行,CheckpointSaverHook
将max\u添加到\u keep
检查点数量。我这样定义它:tf.train.CheckpointSaverHook(checkpoint\u dir=train\u dir,save\u secs=60,#每60秒检查一次saver=tf.train.saver(max\u to\u keep=3))