Machine learning 坠机后继续训练gan 2网络

Machine learning 坠机后继续训练gan 2网络,machine-learning,nvidia,generative-adversarial-network,Machine Learning,Nvidia,Generative Adversarial Network,我一直在尝试使用自定义数据集来训练一个style-gan2网络。不幸的是,我当前运行计算的服务器有些不稳定,导致它在三天的训练后崩溃。我是否有办法使用网络崩溃前的最后一个快照继续训练网络?我已经看到一些关于继续培训网络的参考资料,但style-gan或style-gan2 github页面都没有提到这一点 在仔细研究了一下代码之后,我明白了。结果是在training\training\u循环中有一个resume\u pkl变量。通过将该变量设置为要恢复的快照的路径,我可以重新启动培训过程。网络目

我一直在尝试使用自定义数据集来训练一个style-gan2网络。不幸的是,我当前运行计算的服务器有些不稳定,导致它在三天的训练后崩溃。我是否有办法使用网络崩溃前的最后一个快照继续训练网络?我已经看到一些关于继续培训网络的参考资料,但style-gan或style-gan2 github页面都没有提到这一点

在仔细研究了一下代码之后,我明白了。结果是在training\training\u循环中有一个resume\u pkl变量。通过将该变量设置为要恢复的快照的路径,我可以重新启动培训过程。网络目前已恢复培训,如果我遇到任何进一步的问题,我将在这里发表另一个评论。

还有此支持请求:

查看样式2主控/结果/并找到最近的检查点, 比如:

network-snapshot-005120.pkl

然后您必须在training\u loop.py中编辑几个变量

插入该检查点pkl文件的完整路径(插入变量“resume_pkl”)

然后将kimg值(“005120”)转换为浮点数, 并将其插入
resume\u kimg
。恢复非常重要,因为它需要知道在哪里恢复学习率曲线

下面是mien的样子:

resume_pkl = '/mnt/harddrive/stylegan2encoder-master/results/00012-stylegan2-testexperiment-1gpu-config-f/network-snapshot-005120.pkl',

resume_kimg  = 5120.0,
至于
resume\u time
,我只把它设置为零,因为我知道它的训练时间大约为100天

此后,

返回并运行与启动第一个会话相同的命令。

python run_training.py --num-gpus=1 --data-dir=/mnt/harddrive/stylegan2encoder-master/datasets/ --config=config-f --dataset=testexperiment