Pytorch Cuda内存不足-矩阵乘法

Pytorch Cuda内存不足-矩阵乘法,pytorch,matrix-multiplication,attention-model,Pytorch,Matrix Multiplication,Attention Model,我正在尝试运行独立的自我关注模型。 即使批处理大小为1,它也会因为out=key*query而抱怨CUDA内存不足: 键的张量是[2,8,8224224,49] 查询的张量为[2,8,8224224,1] 尺寸1为批量,尺寸2为自组,尺寸3为输出通道,尺寸4为高度,尺寸5为宽度,尺寸6=-1 一个非常天真的想法是将这两个矩阵分成几个块,如。但我不确定它如何在6维空间中工作 谢谢

我正在尝试运行独立的自我关注模型。 即使批处理大小为1,它也会因为out=key*query而抱怨CUDA内存不足:

键的张量是[2,8,8224224,49] 查询的张量为[2,8,8224224,1] 尺寸1为批量,尺寸2为自组,尺寸3为输出通道,尺寸4为高度,尺寸5为宽度,尺寸6=-1

一个非常天真的想法是将这两个矩阵分成几个块,如。但我不确定它如何在6维空间中工作

谢谢