Tensorflow 受监控的培训课程保存所有检查点_Tensorflow

Tensorflow 受监控的培训课程保存所有检查点

tensorflow

Tensorflow 受监控的培训课程保存所有检查点,tensorflow,Tensorflow,使用tf.train.MonitoredTrainingSession时，是否可以保存所有检查点。它有一个参数（save\u checkpoint\u secs=600）来指定要保存多少检查点，但没有选项来指定可以保存多少检查点使用简单的tf.train.Saver（）时，有一个选项指定max\u to_keep您可以使用tf.train.Scaffold将tf.train.Saver传递给tf.train.MonitoredTrainingSession： import tensorflo

使用

tf.train.MonitoredTrainingSession

时，是否可以保存所有检查点。它有一个参数（

save\u checkpoint\u secs=600

）来指定要保存多少检查点，但没有选项来指定可以保存多少检查点

使用简单的

tf.train.Saver（）

时，有一个选项指定

max\u to_keep

您可以使用

tf.train.Scaffold

将

tf.train.Saver

传递给

tf.train.MonitoredTrainingSession

：

import tensorflow as tf
scaffold = tf.train.Scaffold(saver=tf.train.Saver(max_to_keep=10))
with tf.train.MonitoredTrainingSession(scaffold=scaffold) as sess:
    ...

对不起，这次来晚了一点。如果您使用的是tf.train.saver，则不会从受监控会话中指定任何saver信息，否则将覆盖来自saver的所有信息

Scaffold

对我有效。由于某种原因，

CheckpointSaverHook

没有保持正确的检查点数量。对于每次运行，

CheckpointSaverHook

将

max\u添加到\u keep

检查点数量。我这样定义它：

tf.train.CheckpointSaverHook（checkpoint\u dir=train\u dir，save\u secs=60，#每60秒检查一次saver=tf.train.saver（max\u to\u keep=3））