Pytorch Cuda内存不足-矩阵乘法_Pytorch_Matrix Multiplication_Attention Model

Pytorch Cuda内存不足-矩阵乘法

pytorch

Pytorch Cuda内存不足-矩阵乘法,pytorch,matrix-multiplication,attention-model,Pytorch,Matrix Multiplication,Attention Model,我正在尝试运行独立的自我关注模型。即使批处理大小为1，它也会因为out=key*query而抱怨CUDA内存不足：键的张量是[2,8,8224224,49] 查询的张量为[2,8,8224224,1] 尺寸1为批量，尺寸2为自组，尺寸3为输出通道，尺寸4为高度，尺寸5为宽度，尺寸6=-1 一个非常天真的想法是将这两个矩阵分成几个块，如。但我不确定它如何在6维空间中工作谢谢

我正在尝试运行独立的自我关注模型。即使批处理大小为1，它也会因为out=key*query而抱怨CUDA内存不足：

键的张量是[2,8,8224224,49] 查询的张量为[2,8,8224224,1] 尺寸1为批量，尺寸2为自组，尺寸3为输出通道，尺寸4为高度，尺寸5为宽度，尺寸6=-1

一个非常天真的想法是将这两个矩阵分成几个块，如。但我不确定它如何在6维空间中工作

谢谢