Amazon web services Caffe检查失败：错误==cudaSuccess（2对0）内存不足_Amazon Web Services_Neural Network_Deep Learning_Caffe

Amazon web services Caffe检查失败：错误==cudaSuccess（2对0）内存不足

amazon-web-services neural-network deep-learning

Amazon web services Caffe检查失败：错误==cudaSuccess（2对0）内存不足,amazon-web-services,neural-network,deep-learning,caffe,Amazon Web Services,Neural Network,Deep Learning,Caffe,我正在尝试在Caffe上训练一个网络。我的图像大小是512x640。批量大小为1。我正在努力实现我目前正在AmazonEC2实例（g2.2xlarge）上运行此程序，该实例具有4GB的GPU内存。但当我运行解算器时，它会立即抛出一个错误有人能帮我从这里开始吗？您得到的错误确实是内存不足，但不是RAM，而是GPU内存（请注意，错误来自CUDA）。通常，当caffe内存不足时，首先要做的是减少批处理大小（代价是），但由于您已经在批处理大小=1… 您确定训练和测试阶段的批大小都是1吗？Caffe

我正在尝试在Caffe上训练一个网络。我的图像大小是512x640。批量大小为1。我正在努力实现

我目前正在AmazonEC2实例（g2.2xlarge）上运行此程序，该实例具有4GB的GPU内存。但当我运行解算器时，它会立即抛出一个错误

有人能帮我从这里开始吗？

您得到的错误确实是内存不足，但不是RAM，而是GPU内存（请注意，错误来自CUDA）。
通常，当caffe内存不足时，首先要做的是减少批处理大小（代价是），但由于您已经在批处理大小=1…

您确定训练和测试阶段的批大小都是1吗？

Caffe可以使用多个GPU。这只在C++接口中支持，而不是在Python接口中。您还可以启用cuDNN以降低内存占用

在具有以下配置的PC上运行Deeplab v2时，我遇到了类似的问题：

----------
OS: Ubuntu 18.04.3 LTS (64-bit)
----------
Processor: Intel Core i7-6700k CPU @ 4.00 GHz x 8
----------
GPU: GeForce GTX 780 (3022 MiB)
----------
RAM : 31.3 GiB
----------

将测试和训练批大小更改为1对我没有帮助。但是，更改输出图像的尺寸确实做到了

我想是的。是的，培训和测试阶段的批量都是1。我想我已经将训练图像调整为更小的尺寸，并尝试一下。但为什么4GB的GPU内存占用更少的空间呢？它说

读取的总字节数是537399810

，远小于4GB。我只是将图像和标签大小减小到256x320左右。它运行成功。我看到它使用了大约3.75 GB的GPU内存。感谢您的帮助。如果批量大小已经为1，添加退出层是否有帮助@Shai@thigi这是无关的。即使批处理大小为1，也可以添加辍学，辍学不会删除整个样本，而是修剪一些输出神经元。您可以使用

iter\u size

使实际批次大小大于一个。看，这与我的问题无关，但你的回答给了我一个提示，为什么我的内存不足。我的测试批大小大于我的训练批大小，因此使测试批大小更小修复了我的错误。谢谢你，谢！相关：两个解决方案：一，你可以尝试减少你的批量大小，但你的批量大小=1，并且没有用，那么你可以重新缩放你的图片，减少你的图片大小可以是有用的；第二，你可以买一个更好的GPU。

----------
OS: Ubuntu 18.04.3 LTS (64-bit)
----------
Processor: Intel Core i7-6700k CPU @ 4.00 GHz x 8
----------
GPU: GeForce GTX 780 (3022 MiB)
----------
RAM : 31.3 GiB
----------