Vector 为什么Bert';添加三个嵌入件?

Vector 为什么Bert';添加三个嵌入件?,vector,nlp,embedding,transformer,bert-language-model,Vector,Nlp,Embedding,Transformer,Bert Language Model,我已经知道了标记嵌入、段嵌入和位置嵌入的含义。但是为什么这三个向量可以相加呢?向量的大小和方向在加法后会改变,单词的语义也会改变。(对于具有两个嵌入的变压器模型,这是相同的问题,即输入嵌入和位置嵌入。)首先,这些向量按元素添加->嵌入的大小保持不变 其次,位置在标记的意义中起着重要作用,因此它应该以某种方式成为嵌入的一部分。注意:标记嵌入不一定像我们现在从word2vec中看到的那样包含语义信息,所有这些嵌入(标记、段和位置)都是在预训练中一起学习的,因此它们最好一起完成任务。在预培训中,他们已

我已经知道了标记嵌入、段嵌入和位置嵌入的含义。但是为什么这三个向量可以相加呢?向量的大小和方向在加法后会改变,单词的语义也会改变。(对于具有两个嵌入的变压器模型,这是相同的问题,即输入嵌入和位置嵌入。)

首先,这些向量按元素添加->嵌入的大小保持不变

其次,位置在标记的意义中起着重要作用,因此它应该以某种方式成为嵌入的一部分。注意:标记嵌入不一定像我们现在从word2vec中看到的那样包含语义信息,所有这些嵌入(标记、段和位置)都是在预训练中一起学习的,因此它们最好一起完成任务。在预培训中,他们已经被添加到一起,所以他们是专门针对这种情况进行培训的。向量的方向确实会随着这个加法而改变,但是新的方向为模型提供了重要的信息,只包含在一个向量中

注意:每个向量都是巨大的(基本模型中有768个维度)