Machine learning 什么是用来训练自我注意机制的？_Machine Learning_Nlp_Artificial Intelligence_Attention Model

Machine learning 什么是用来训练自我注意机制的？

machine-learning nlp artificial-intelligence

Machine learning 什么是用来训练自我注意机制的？,machine-learning,nlp,artificial-intelligence,attention-model,Machine Learning,Nlp,Artificial Intelligence,Attention Model,我一直试图理解自我关注，但我发现的一切都不能很好地解释这个概念假设我们在NLP任务中使用自我注意，所以我们的输入是一个句子然后自我注意可以用来衡量句子中每个单词对其他单词的“重要性” 问题是我不明白“重要性”是如何衡量的。对什么重要自我注意算法中的权重训练所针对的目标向量到底是什么？将语言与潜在意义联系起来称为基础。像“球在桌子上”这样的句子会产生一个图像，可以通过多模式学习进行复制。多模态意味着可以使用不同类型的词，例如事件、动作词、主题等。自我注意机制将输入向量映射到输出向量，它们之间

我一直试图理解自我关注，但我发现的一切都不能很好地解释这个概念

假设我们在NLP任务中使用自我注意，所以我们的输入是一个句子

然后自我注意可以用来衡量句子中每个单词对其他单词的“重要性”

问题是我不明白“重要性”是如何衡量的。对什么重要

自我注意算法中的权重训练所针对的目标向量到底是什么？

将语言与潜在意义联系起来称为基础。像“球在桌子上”这样的句子会产生一个图像，可以通过多模式学习进行复制。多模态意味着可以使用不同类型的词，例如事件、动作词、主题等。自我注意机制将输入向量映射到输出向量，它们之间是一个神经网络。神经网络的输出向量参考接地情况

让我们举一个简短的例子。我们需要一个300x200的像素图像，我们需要一个自然语言的句子，我们需要一个解析器。解析器在两个方向上工作。他可以将文本转换为图像，这意味着“球在桌子上”这句话被转换为300x200图像。但也可以解析给定的图像并提取自然句子。自我关注学习是学习和使用扎根关系的自举技巧。这意味着要验证现有的语言模型，学习新的模型，并预测未来的系统状态。

这个问题现在已经很老了，但我遇到了它，所以我想我应该随着自己理解的增加而更新其他问题

注意只是指获取输出并将其与其他信息相结合的操作。通常情况下，这只是通过将输出的点积与其他向量相结合来实现的，这样它就可以以某种方式“关注”它

自我注意将输出与输入的其他部分相结合（因此是自我部分）。同样，组合通常通过向量之间的点积发生

最后，注意力（或自我注意力）是如何训练的？
让我们将Z称为输出，W称为权重矩阵，X称为输入（我们将使用@作为矩阵乘法符号）

在NLP中，我们将Z与我们想要的结果输出进行比较。例如，在机器翻译中，它是另一种语言中的句子。我们可以用预测的每个单词的平均交叉熵损失来比较两者。最后，我们可以使用反向传播更新W

我们如何看待什么是重要的？我们可以通过观察Z的大小来了解在注意之后哪些词是最“关注”的

这是一个稍微简化的例子，因为它只有一个权重矩阵，通常输入是嵌入的，但我认为它仍然突出了一些关于注意的必要细节

下面是一个有用的资源，提供了可视化功能，以获取有关的更多信息。

这是另一个关于变压器注意事项的可视化资源。

>神经网络的输出向量参考接地情况。因此，输出向量因任务而异。我一直在怀疑这一点，但在我看到的任何地方都没有说清楚我发现这个资源是可以理解的：

Z = X^T @ W^T @ X