Tensorflow 受监控的培训课程保存所有检查点

Tensorflow 受监控的培训课程保存所有检查点,tensorflow,Tensorflow,使用tf.train.MonitoredTrainingSession时,是否可以保存所有检查点。 它有一个参数(save\u checkpoint\u secs=600)来指定要保存多少检查点,但没有选项来指定可以保存多少检查点 使用简单的tf.train.Saver()时,有一个选项指定max\u to_keep您可以使用tf.train.Scaffold将tf.train.Saver传递给tf.train.MonitoredTrainingSession: import tensorflo

使用
tf.train.MonitoredTrainingSession
时,是否可以保存所有检查点。 它有一个参数(
save\u checkpoint\u secs=600
)来指定要保存多少检查点,但没有选项来指定可以保存多少检查点


使用简单的
tf.train.Saver()
时,有一个选项指定
max\u to_keep
您可以使用
tf.train.Scaffold
tf.train.Saver
传递给
tf.train.MonitoredTrainingSession

import tensorflow as tf
scaffold = tf.train.Scaffold(saver=tf.train.Saver(max_to_keep=10))
with tf.train.MonitoredTrainingSession(scaffold=scaffold) as sess:
    ...

对不起,这次来晚了一点。如果您使用的是tf.train.saver,则不会从受监控会话中指定任何saver信息,否则将覆盖来自saver的所有信息

Scaffold
对我有效。由于某种原因,
CheckpointSaverHook
没有保持正确的检查点数量。对于每次运行,
CheckpointSaverHook
max\u添加到\u keep
检查点数量。我这样定义它:
tf.train.CheckpointSaverHook(checkpoint\u dir=train\u dir,save\u secs=60,#每60秒检查一次saver=tf.train.saver(max\u to\u keep=3))