Vector 为什么Bert'；添加三个嵌入件？_Vector_Nlp_Embedding_Transformer_Bert Language Model

Vector 为什么Bert'；添加三个嵌入件？

vector nlp

Vector 为什么Bert'；添加三个嵌入件？,vector,nlp,embedding,transformer,bert-language-model,Vector,Nlp,Embedding,Transformer,Bert Language Model,我已经知道了标记嵌入、段嵌入和位置嵌入的含义。但是为什么这三个向量可以相加呢？向量的大小和方向在加法后会改变，单词的语义也会改变。（对于具有两个嵌入的变压器模型，这是相同的问题，即输入嵌入和位置嵌入。）首先，这些向量按元素添加->嵌入的大小保持不变其次，位置在标记的意义中起着重要作用，因此它应该以某种方式成为嵌入的一部分。注意：标记嵌入不一定像我们现在从word2vec中看到的那样包含语义信息，所有这些嵌入（标记、段和位置）都是在预训练中一起学习的，因此它们最好一起完成任务。在预培训中，他们已

我已经知道了标记嵌入、段嵌入和位置嵌入的含义。但是为什么这三个向量可以相加呢？向量的大小和方向在加法后会改变，单词的语义也会改变。（对于具有两个嵌入的变压器模型，这是相同的问题，即输入嵌入和位置嵌入。）

首先，这些向量按元素添加->嵌入的大小保持不变

其次，位置在标记的意义中起着重要作用，因此它应该以某种方式成为嵌入的一部分。注意：标记嵌入不一定像我们现在从word2vec中看到的那样包含语义信息，所有这些嵌入（标记、段和位置）都是在预训练中一起学习的，因此它们最好一起完成任务。在预培训中，他们已经被添加到一起，所以他们是专门针对这种情况进行培训的。向量的方向确实会随着这个加法而改变，但是新的方向为模型提供了重要的信息，只包含在一个向量中

注意：每个向量都是巨大的（基本模型中有768个维度）