Deep learning 使用不同GPU在Caffe中恢复学习

Deep learning 使用不同GPU在Caffe中恢复学习,deep-learning,caffe,snapshot,resume,training-data,Deep Learning,Caffe,Snapshot,Resume,Training Data,我想问一些关于在Caffe恢复学习的问题。情况是这样的: 在第一次训练时,我使用四个GPU(0,1,2,3)训练200000次迭代的图像,并保存快照,比如说,每50000次迭代一次 然后,我在第100000次迭代时停止学习 然后我想从第100000个快照模型中再次恢复它 我的问题是,我们是否需要使用相同的GPU(0,1,2,3)来恢复学习,或者我们可以只使用其他任意GPU(比方说,只为这份简历使用两个GPU(0和3))?我这样问是因为最近我无法在使用不同数量的GPU时恢复学习,但在使用相同的GP

我想问一些关于在Caffe恢复学习的问题。情况是这样的:

  • 在第一次训练时,我使用四个GPU(0,1,2,3)训练200000次迭代的图像,并保存快照,比如说,每50000次迭代一次
  • 然后,我在第100000次迭代时停止学习
  • 然后我想从第100000个快照模型中再次恢复它

  • 我的问题是,我们是否需要使用相同的GPU(0,1,2,3)来恢复学习,或者我们可以只使用其他任意GPU(比方说,只为这份简历使用两个GPU(0和3))?我这样问是因为最近我无法在使用不同数量的GPU时恢复学习,但在使用相同的GPU时效果很好

    在使用不同数量的GPU时恢复学习有什么问题?您好@DaleSong,问题是恢复学习已中止。您可以看到以下详细信息:
    ***在1473325340(unix时间)中止。如果您使用的是GNU date***PC:@0x7f2f8a6d2677(未知)***SIGSEGV(@0x30338000)由PID 3754(TID 0x7f2f8ce00a40)从PID 808681472接收;堆栈跟踪:**@0x7f2f8a5b7cb0(未知)@0x7f2f8a6d2677(未知)@0x7f2f8c36335c std::vector::erase()@0x7f2f8c3620e7 caffe::DeviceAir::compute()@0x7f2f8c36720c caffe::P2PSync::Prepare()@0x7f2f8c36778c caffe::P2PSync::Run()@0x40b02c train()@0x40897c main
    当您使用任何不同的GPU组合从头开始训练而不是恢复训练时,它是否工作良好?