Neural network BigBird，或稀疏自我注意：如何实现稀疏矩阵？_Neural Network_Pytorch_Tensor_Bert Language Model_Attention Model

Neural network BigBird，或稀疏自我注意：如何实现稀疏矩阵？

neural-network pytorch

Neural network BigBird，或稀疏自我注意：如何实现稀疏矩阵？,neural-network,pytorch,tensor,bert-language-model,attention-model,Neural Network,Pytorch,Tensor,Bert Language Model,Attention Model,这个问题与新论文有关：。主要是关于稀疏注意的实现（即在中指定）。目前，我正在尝试在PyTorch中实现它他们提出了一种通过阻止原始查询和键矩阵来加速计算的新方法（见下文）当您在步骤（b）中进行矩阵乘法运算时，您会得到如下结果：所以我想知道：你会如何从表示（上图）到稀疏矩阵（使用PyTorch，见下图）？在论文中，他们只是说：“简单地重塑结果”，我不知道任何简单的方法来做到这一点（特别是，当我在不同的位置有多个块时（见第一幅图上的步骤（c））分辨率： Huggingface在pytor

这个问题与新论文有关：。主要是关于稀疏注意的实现（即在中指定）。目前，我正在尝试在PyTorch中实现它

他们提出了一种通过阻止原始查询和键矩阵来加速计算的新方法（见下文）

当您在步骤（b）中进行矩阵乘法运算时，您会得到如下结果：

所以我想知道：你会如何从表示（上图）到稀疏矩阵（使用PyTorch，见下图）？在论文中，他们只是说：“简单地重塑结果”，我不知道任何简单的方法来做到这一点（特别是，当我在不同的位置有多个块时（见第一幅图上的步骤（c））

分辨率：

Huggingface在pytorch中有一个BigBird的实现。

我最终遵循了本文中的指导原则。对于结果的解包，我使用：

torch.sparse\u coo\u tensor

编辑：稀疏张量仍然需要大量内存！这里描述了这个问题。我最终遵循了论文中的指导原则。当我使用解包结果时：

torch.Sparse\u coo\u tensor

编辑：稀疏张量仍然占用大量内存！这里介绍了稀疏注意机制的实现方法吗？您可以查看deepspeed实现更新：Huggingface在pytorch中实现了BigBird（您可以查看它们的代码）谢谢，我要检查一下，我也在寻找一种用于自我监督学习的简单技术，请告诉我您是否有相关信息您是否有稀疏注意机制实现？您可以查看deepspeed实现更新：Huggingface在pytorch中有一个BigBird实现（您可以查看他们的代码）谢谢，我要检查一下，我也在寻找一种简单的自我监督学习方法，如果你有关于它的信息，请告诉我