Machine learning 坠机后继续训练gan 2网络_Machine Learning_Nvidia_Generative Adversarial Network

Machine learning 坠机后继续训练gan 2网络

machine-learning

Machine learning 坠机后继续训练gan 2网络,machine-learning,nvidia,generative-adversarial-network,Machine Learning,Nvidia,Generative Adversarial Network,我一直在尝试使用自定义数据集来训练一个style-gan2网络。不幸的是，我当前运行计算的服务器有些不稳定，导致它在三天的训练后崩溃。我是否有办法使用网络崩溃前的最后一个快照继续训练网络？我已经看到一些关于继续培训网络的参考资料，但style-gan或style-gan2 github页面都没有提到这一点在仔细研究了一下代码之后，我明白了。结果是在training\training\u循环中有一个resume\u pkl变量。通过将该变量设置为要恢复的快照的路径，我可以重新启动培训过程。网络目

我一直在尝试使用自定义数据集来训练一个style-gan2网络。不幸的是，我当前运行计算的服务器有些不稳定，导致它在三天的训练后崩溃。我是否有办法使用网络崩溃前的最后一个快照继续训练网络？我已经看到一些关于继续培训网络的参考资料，但style-gan或style-gan2 github页面都没有提到这一点

在仔细研究了一下代码之后，我明白了。结果是在training\training\u循环中有一个resume\u pkl变量。通过将该变量设置为要恢复的快照的路径，我可以重新启动培训过程。网络目前已恢复培训，如果我遇到任何进一步的问题，我将在这里发表另一个评论。

还有此支持请求：

查看样式2主控/结果/并找到最近的检查点，比如：

network-snapshot-005120.pkl

然后您必须在training\u loop.py中编辑几个变量
插入该检查点pkl文件的完整路径（插入变量“resume_pkl”）
然后将kimg值（“005120”）转换为浮点数，并将其插入
resume\u kimg
。恢复非常重要，因为它需要知道在哪里恢复学习率曲线
下面是mien的样子：

resume_pkl = '/mnt/harddrive/stylegan2encoder-master/results/00012-stylegan2-testexperiment-1gpu-config-f/network-snapshot-005120.pkl', resume_kimg = 5120.0,
至于
resume\u time
，我只把它设置为零，因为我知道它的训练时间大约为100天
此后,
返回并运行与启动第一个会话相同的命令。

python run_training.py --num-gpus=1 --data-dir=/mnt/harddrive/stylegan2encoder-master/datasets/ --config=config-f --dataset=testexperiment