恢复对keras模型的培训,回调为';早顶'';仅保存“最佳”'';还原隆高原';,和';张力板';

恢复对keras模型的培训,回调为';早顶'';仅保存“最佳”'';还原隆高原';,和';张力板';,keras,tensorboard,checkpoint,early-stopping,resuming-training,Keras,Tensorboard,Checkpoint,Early Stopping,Resuming Training,我在一个巨大的数据上训练一个巨大的模型,但问题是我训练的集群不允许训练超过两周,但我的模型需要更多的时间。我使用了12个时期的早期训练,5个时期的减少了回旋高原,TensorBoard和我保存了最好的模型,因为我不想在训练被迫停止时使用12个时期的模型。但是集群现在在两周后停止了训练,而训练并没有因为提前停止而停止,但是已经有3个阶段没有改善,所以我想继续训练,看看是否会再次实现改善,或者在9个以上阶段没有改善后提前停止训练。但问题是,我只保存了最好的模型,假设是在第8个历元之后实现的最好模型,

我在一个巨大的数据上训练一个巨大的模型,但问题是我训练的集群不允许训练超过两周,但我的模型需要更多的时间。我使用了12个时期的早期训练,5个时期的减少了回旋高原,TensorBoard和我保存了最好的模型,因为我不想在训练被迫停止时使用12个时期的模型。但是集群现在在两周后停止了训练,而训练并没有因为提前停止而停止,但是已经有3个阶段没有改善,所以我想继续训练,看看是否会再次实现改善,或者在9个以上阶段没有改善后提前停止训练。但问题是,我只保存了最好的模型,假设是在第8个历元之后实现的最好模型,并且训练继续了三个历元,没有任何改进,直到集群关闭训练,所以我有两个选择:要么将初始历元设置为8(保存了最好的模型)然后从最好的模式恢复训练,或者将初始历元设置为11,但选项2的问题是我没有第11历元的模式,尽管它不是最好的。所以,我不想从第八个纪元开始,在第八个纪元中,我获得了最好的模型,但我没有机会获得第十一个纪元中的模型。我在Keras文档中读到,我可以将save_best_only设置为False,并根据{epoch}给出文件路径格式。因此,这样我可以从最新的模型恢复培训,但我不想自己手动验证最佳模型。这就是为什么我也使用了TensorBoard,但我不知道它是否能帮助我恢复训练,同时了解表现最好的模型和最新时代的模型。有什么帮助吗