使用Pytorch运行Bert时CUDA内存不足(以前工作过)

使用Pytorch运行Bert时CUDA内存不足(以前工作过),pytorch,amazon-sagemaker,bert-language-model,spacy-pytorch-transformers,Pytorch,Amazon Sagemaker,Bert Language Model,Spacy Pytorch Transformers,我正在使用Pytorch在SageMaker上构建一个BERT二进制分类 以前,当我运行模型时,我将批处理大小设置为16,并且模型能够成功运行。然而,昨天在我停止SageMaker并在今天早上重新启动之后,我无法再运行批处理大小为16的模型。我能够运行批量为8的模型。 然而,模型并没有产生相同的结果(当然)。在这两者之间,我没有做任何改变。所有其他设置都相同。(除非我将SageMaker卷从30GB更改为200GB。) 有人知道是什么导致了这个问题吗?我真的很想用批量16复制结果 任何答案都会有

我正在使用Pytorch在SageMaker上构建一个BERT二进制分类

以前,当我运行模型时,我将批处理大小设置为16,并且模型能够成功运行。然而,昨天在我停止SageMaker并在今天早上重新启动之后,我无法再运行批处理大小为16的模型。我能够运行批量为8的模型。
然而,模型并没有产生相同的结果(当然)。在这两者之间,我没有做任何改变。所有其他设置都相同。(除非我将SageMaker卷从30GB更改为200GB。)

有人知道是什么导致了这个问题吗?我真的很想用批量16复制结果


任何答案都会有帮助,并提前感谢您

请确认GPU上是否有其他进程运行。@AshWingeted'Sa感谢您的回复。我确实发现在后端运行着一些其他隐藏的python进程。然而,我甚至停止了SageMaker并重新启动了它。它应该停止我所有的进程吗?你可以检查其他进程消耗了多少内存。您可以暂时停止其他进程并验证是否可以运行BERT。您能否提供有关您在SageMaker中执行此操作的更多详细信息?这是在SageMaker NoteBook实例、SageMaker培训工作或其他工作中吗?