Amazon web services Caffe检查失败:错误==cudaSuccess(2对0)内存不足

Amazon web services Caffe检查失败:错误==cudaSuccess(2对0)内存不足,amazon-web-services,neural-network,deep-learning,caffe,Amazon Web Services,Neural Network,Deep Learning,Caffe,我正在尝试在Caffe上训练一个网络。我的图像大小是512x640。批量大小为1。我正在努力实现 我目前正在AmazonEC2实例(g2.2xlarge)上运行此程序,该实例具有4GB的GPU内存。但当我运行解算器时,它会立即抛出一个错误 有人能帮我从这里开始吗?您得到的错误确实是内存不足,但不是RAM,而是GPU内存(请注意,错误来自CUDA)。 通常,当caffe内存不足时,首先要做的是减少批处理大小(代价是),但由于您已经在批处理大小=1… 您确定训练和测试阶段的批大小都是1吗?Caffe

我正在尝试在Caffe上训练一个网络。我的图像大小是512x640。批量大小为1。我正在努力实现

我目前正在AmazonEC2实例(g2.2xlarge)上运行此程序,该实例具有4GB的GPU内存。但当我运行解算器时,它会立即抛出一个错误


有人能帮我从这里开始吗?

您得到的错误确实是内存不足,但不是RAM,而是GPU内存(请注意,错误来自CUDA)。
通常,当caffe内存不足时,首先要做的是减少批处理大小(代价是),但由于您已经在批处理大小=1…

您确定训练和测试阶段的批大小都是1吗?

Caffe可以使用多个GPU。这只在C++接口中支持,而不是在Python接口中。您还可以启用cuDNN以降低内存占用


在具有以下配置的PC上运行Deeplab v2时,我遇到了类似的问题:

----------
OS: Ubuntu 18.04.3 LTS (64-bit)
----------
Processor: Intel Core i7-6700k CPU @ 4.00 GHz x 8
----------
GPU: GeForce GTX 780 (3022 MiB)
----------
RAM : 31.3 GiB
----------

将测试和训练批大小更改为1对我没有帮助。但是,更改输出图像的尺寸确实做到了

我想是的。是的,培训和测试阶段的批量都是1。我想我已经将训练图像调整为更小的尺寸,并尝试一下。但为什么4GB的GPU内存占用更少的空间呢?它说
读取的总字节数是537399810
,远小于4GB。我只是将图像和标签大小减小到256x320左右。它运行成功。我看到它使用了大约3.75 GB的GPU内存。感谢您的帮助。如果批量大小已经为1,添加退出层是否有帮助@Shai@thigi这是无关的。即使批处理大小为1,也可以添加辍学,辍学不会删除整个样本,而是修剪一些输出神经元。您可以使用
iter\u size
使实际批次大小大于一个。看,这与我的问题无关,但你的回答给了我一个提示,为什么我的内存不足。我的测试批大小大于我的训练批大小,因此使测试批大小更小修复了我的错误。谢谢你,谢!相关:两个解决方案:一,你可以尝试减少你的批量大小,但你的批量大小=1,并且没有用,那么你可以重新缩放你的图片,减少你的图片大小可以是有用的;第二,你可以买一个更好的GPU。
----------
OS: Ubuntu 18.04.3 LTS (64-bit)
----------
Processor: Intel Core i7-6700k CPU @ 4.00 GHz x 8
----------
GPU: GeForce GTX 780 (3022 MiB)
----------
RAM : 31.3 GiB
----------