Deep learning 使用不同GPU在Caffe中恢复学习_Deep Learning_Caffe_Snapshot_Resume_Training Data

Deep learning 使用不同GPU在Caffe中恢复学习

deep-learning

Deep learning 使用不同GPU在Caffe中恢复学习,deep-learning,caffe,snapshot,resume,training-data,Deep Learning,Caffe,Snapshot,Resume,Training Data,我想问一些关于在Caffe恢复学习的问题。情况是这样的：在第一次训练时，我使用四个GPU（0,1,2,3）训练200000次迭代的图像，并保存快照，比如说，每50000次迭代一次然后，我在第100000次迭代时停止学习然后我想从第100000个快照模型中再次恢复它我的问题是，我们是否需要使用相同的GPU（0,1,2,3）来恢复学习，或者我们可以只使用其他任意GPU（比方说，只为这份简历使用两个GPU（0和3））？我这样问是因为最近我无法在使用不同数量的GPU时恢复学习，但在使用相同的GP

我想问一些关于在Caffe恢复学习的问题。情况是这样的：

在第一次训练时，我使用四个GPU（0,1,2,3）训练200000次迭代的图像，并保存快照，比如说，每50000次迭代一次

然后，我在第100000次迭代时停止学习

然后我想从第100000个快照模型中再次恢复它

我的问题是，我们是否需要使用相同的GPU（0,1,2,3）来恢复学习，或者我们可以只使用其他任意GPU（比方说，只为这份简历使用两个GPU（0和3））？我这样问是因为最近我无法在使用不同数量的GPU时恢复学习，但在使用相同的GPU时效果很好

在使用不同数量的GPU时恢复学习有什么问题？您好@DaleSong，问题是恢复学习已中止。您可以看到以下详细信息：

***在1473325340（unix时间）中止。如果您使用的是GNU date***PC:@0x7f2f8a6d2677（未知）***SIGSEGV（@0x30338000）由PID 3754（TID 0x7f2f8ce00a40）从PID 808681472接收；堆栈跟踪：**@0x7f2f8a5b7cb0（未知）@0x7f2f8a6d2677（未知）@0x7f2f8c36335c std:：vector:：erase（）@0x7f2f8c3620e7 caffe:：DeviceAir:：compute（）@0x7f2f8c36720c caffe:：P2PSync:：Prepare（）@0x7f2f8c36778c caffe:：P2PSync:：Run（）@0x40b02c train（）@0x40897c main

当您使用任何不同的GPU组合从头开始训练而不是恢复训练时，它是否工作良好？