Neural network BigBird,或稀疏自我注意:如何实现稀疏矩阵?

Neural network BigBird,或稀疏自我注意:如何实现稀疏矩阵?,neural-network,pytorch,tensor,bert-language-model,attention-model,Neural Network,Pytorch,Tensor,Bert Language Model,Attention Model,这个问题与新论文有关:。主要是关于稀疏注意的实现(即在中指定)。目前,我正在尝试在PyTorch中实现它 他们提出了一种通过阻止原始查询和键矩阵来加速计算的新方法(见下文) 当您在步骤(b)中进行矩阵乘法运算时,您会得到如下结果: 所以我想知道:你会如何从表示(上图)到稀疏矩阵(使用PyTorch,见下图)?在论文中,他们只是说:“简单地重塑结果”,我不知道任何简单的方法来做到这一点(特别是,当我在不同的位置有多个块时(见第一幅图上的步骤(c)) 分辨率: Huggingface在pytor

这个问题与新论文有关:。主要是关于稀疏注意的实现(即在中指定)。目前,我正在尝试在PyTorch中实现它

他们提出了一种通过阻止原始查询和键矩阵来加速计算的新方法(见下文)

当您在步骤(b)中进行矩阵乘法运算时,您会得到如下结果:

所以我想知道:你会如何从表示(上图)到稀疏矩阵(使用PyTorch,见下图)?在论文中,他们只是说:“简单地重塑结果”,我不知道任何简单的方法来做到这一点(特别是,当我在不同的位置有多个块时(见第一幅图上的步骤(c))

分辨率
Huggingface在pytorch中有一个BigBird的实现。

我最终遵循了本文中的指导原则。对于结果的解包,我使用:
torch.sparse\u coo\u tensor


编辑:稀疏张量仍然需要大量内存!这里描述了这个问题。我最终遵循了论文中的指导原则。当我使用解包结果时:
torch.Sparse\u coo\u tensor


编辑:稀疏张量仍然占用大量内存!这里介绍了稀疏注意机制的实现方法吗?您可以查看deepspeed实现更新:Huggingface在pytorch中实现了BigBird(您可以查看它们的代码)谢谢,我要检查一下,我也在寻找一种用于自我监督学习的简单技术,请告诉我您是否有相关信息您是否有稀疏注意机制实现?您可以查看deepspeed实现更新:Huggingface在pytorch中有一个BigBird实现(您可以查看他们的代码)谢谢,我要检查一下,我也在寻找一种简单的自我监督学习方法,如果你有关于它的信息,请告诉我