Nlp 单词嵌入量/范数的意义是什么？_Nlp_Bert Language Model

Nlp 单词嵌入量/范数的意义是什么？

nlp

Nlp 单词嵌入量/范数的意义是什么？,nlp,bert-language-model,Nlp,Bert Language Model,我们通常用余弦相似性比较单词嵌入之间的相似性，但这只考虑向量之间的角度，而不是范数。在word2vec中，向量的范数随着单词在更多不同的上下文中使用而降低。因此，stopwords接近于0，并且非常独特，高意义的单词往往是大向量。BERT是上下文敏感的，所以这个解释并不完全涵盖BERT嵌入。有人知道向量大小对于BERT的意义吗？我认为在向量的余弦相似性或范数方面，BERT和其他嵌入（如GloVE或Word2Vec）之间没有任何区别。只是因为BERT是上下文相关的嵌入，所以为不同的上下文提供不同的

我们通常用余弦相似性比较单词嵌入之间的相似性，但这只考虑向量之间的角度，而不是范数。在word2vec中，向量的范数随着单词在更多不同的上下文中使用而降低。因此，stopwords接近于0，并且非常独特，高意义的单词往往是大向量。BERT是上下文敏感的，所以这个解释并不完全涵盖BERT嵌入。有人知道向量大小对于BERT的意义吗？

我认为在向量的余弦相似性或范数方面，BERT和其他嵌入（如GloVE或Word2Vec）之间没有任何区别。只是因为BERT是上下文相关的嵌入，所以为不同的上下文提供不同的单词嵌入

在stats.stackexchange-@PavelOganesyan上有非常详细的答案。不，这里根本没有提到伯特。此外，该链接只提供了关于word2vec和vectors的一般性评论（正如他的第二句话所示，本文作者清楚地意识到了这一点）@PavelOganesyan尽管它没有回答这个问题，但您的链接确实提供了一些关于单词嵌入和方便参考的非常有用的背景信息。谢谢“无差异”是指较大的标准表示更具体（且不太常见）的含义？我有点怀疑你是否正确。你能提供一些理由吗？BERT嵌入是通过完全不同的机制生成的。例如：标记是单词块，嵌入本身不会通过softmax传递到vocab，而是标记的上下文表示。如果没有强有力的相反论据（即：实验表明它是这样工作的），我的猜测是它们不太可能遵循相同的模式。