使用Pytorch运行Bert时CUDA内存不足（以前工作过）_Pytorch_Amazon Sagemaker_Bert Language Model_Spacy Pytorch Transformers

使用Pytorch运行Bert时CUDA内存不足（以前工作过）

pytorch

使用Pytorch运行Bert时CUDA内存不足（以前工作过）,pytorch,amazon-sagemaker,bert-language-model,spacy-pytorch-transformers,Pytorch,Amazon Sagemaker,Bert Language Model,Spacy Pytorch Transformers,我正在使用Pytorch在SageMaker上构建一个BERT二进制分类以前，当我运行模型时，我将批处理大小设置为16，并且模型能够成功运行。然而，昨天在我停止SageMaker并在今天早上重新启动之后，我无法再运行批处理大小为16的模型。我能够运行批量为8的模型。然而，模型并没有产生相同的结果（当然）。在这两者之间，我没有做任何改变。所有其他设置都相同。（除非我将SageMaker卷从30GB更改为200GB。）有人知道是什么导致了这个问题吗？我真的很想用批量16复制结果任何答案都会有

我正在使用Pytorch在SageMaker上构建一个BERT二进制分类

以前，当我运行模型时，我将批处理大小设置为16，并且模型能够成功运行。然而，昨天在我停止SageMaker并在今天早上重新启动之后，我无法再运行批处理大小为16的模型。我能够运行批量为8的模型。
然而，模型并没有产生相同的结果（当然）。在这两者之间，我没有做任何改变。所有其他设置都相同。（除非我将SageMaker卷从30GB更改为200GB。）

有人知道是什么导致了这个问题吗？我真的很想用批量16复制结果

任何答案都会有帮助，并提前感谢您

请确认GPU上是否有其他进程运行。@AshWingeted'Sa感谢您的回复。我确实发现在后端运行着一些其他隐藏的python进程。然而，我甚至停止了SageMaker并重新启动了它。它应该停止我所有的进程吗？你可以检查其他进程消耗了多少内存。您可以暂时停止其他进程并验证是否可以运行BERT。您能否提供有关您在SageMaker中执行此操作的更多详细信息？这是在SageMaker NoteBook实例、SageMaker培训工作或其他工作中吗？