Tensorflow 词向量的中心

Tensorflow 词向量的中心,tensorflow,nlp,vectorization,word2vec,dl4j,Tensorflow,Nlp,Vectorization,Word2vec,Dl4j,我正在学习NLP,并围绕着通过多层感知器的步骤进行思考。因为向量是空间中的大小和方向,所以我很好奇单词向量的中心代表什么。在一个非常简单的向量中,我的单词可能是21,-5。0,0代表什么吗?如果不是,在训练模型之后,它能代表什么吗 如果我理解正确,一个以前从未见过的单词将被赋予数字恒等式和M维向量。然后,该向量进入第一层,该层的节点数与维度数相同,因此在本例中为M个节点。通过反向传播,改变权重,使相似的单词在向量空间中“分组”。(这意味着单词向量本身永远不会从它们的初始随机值修改,对吗?)。我只

我正在学习NLP,并围绕着通过多层感知器的步骤进行思考。因为向量是空间中的大小和方向,所以我很好奇单词向量的中心代表什么。在一个非常简单的向量中,我的单词可能是21,-5。0,0代表什么吗?如果不是,在训练模型之后,它能代表什么吗


如果我理解正确,一个以前从未见过的单词将被赋予数字恒等式和M维向量。然后,该向量进入第一层,该层的节点数与维度数相同,因此在本例中为M个节点。通过反向传播,改变权重,使相似的单词在向量空间中“分组”。(这意味着单词向量本身永远不会从它们的初始随机值修改,对吗?)。我只想了解一些情况

你可以把“向量”这个词在数字上看作是点。它们都从原点开始(0.0,0.0,0.0,…,0.0))并不重要

任何这样的向量的“中心”就是它的中点,这也是一个具有一半大小的相同“方向性”的向量通常但并非总是,通过“余弦相似性”(本质上是一种与长度/幅度无关的差分角度计算),仅根据原始方向,而非幅度对词向量进行比较。(因此,
cosine\u相似性(a,b)
将与
cosine\u相似性(a/2,b)
cosine\u相似性(a,b*4)
等)相同)因此,与其他向量模型相比,您所问的这个“中心”半长实例通常意义不大。一般来说,只要使用余弦相似性作为比较向量的主要方法,将向量移近原点是不相关的。因此,在这个框架中,原点实际上没有明确的含义

关于量级的警告:word2vec training创建的实际原始向量实际上具有各种量级。一些人观察到,这些程度有时与有趣的单词差异相关——例如,高度多义的单词(具有许多替代意义)通常比具有一个主导意义的单词的程度低——因为在替代上下文中“做一些有用的事”的需要在训练过程中拖拽了两个极端之间的向量,让它更“中间”。虽然字与字之间的比较通常会忽略这些大小,以获得纯粹的角度余弦相似性,但有时下游使用,如文本分类,可能会更好地保持原始大小

关于原点的警告:Mu、Bhat和Viswanath撰写的《至少一篇论文》指出,通常所有词向量的“平均值”不是原点,而是明显偏向一个方向——这(在我的程式化理解中)导致了整个空间的不平衡,就是否使用“所有角度”来表示意义上的对比而言。(同样,在我的实验中,这种不平衡的程度似乎与负采样中使用的
示例的数量有关。)他们发现,对向量进行后处理以重新居中可以提高某些任务的性能,但我没有看到其他许多项目将此作为标准步骤。(他们还建议进行一些其他后处理转换,以实质上“增加最有价值维度的对比度”。)


关于你的“IIUC”,是的,单词被赋予起始向量-,但这些向量是随机的,然后在依次尝试每个训练示例后,通过反向推动不断调整,使这些“输入字”向量稍微好一些,作为神经网络的输入,神经网络试图预测附近的“目标/中心/输出”字。调整网络的“内部”/“隐藏”权重,以及
输入向量本身,它们本质上是“投影权重”——从单个词汇词的一个热表示到“M个不同的内部隐藏层节点”。也就是说,每个“词向量”本质上是神经网络内部权重的特定于词的子集

你可以把“向量”这个词在数字上看作是点。它们都从原点开始(0.0,0.0,0.0,…,0.0)
)并不重要

任何这样的向量的“中心”就是它的中点,这也是一个具有一半大小的相同“方向性”的向量通常但并非总是,通过“余弦相似性”(本质上是一种与长度/幅度无关的差分角度计算),仅根据原始方向,而非幅度对词向量进行比较。(因此,
cosine\u相似性(a,b)
将与
cosine\u相似性(a/2,b)
cosine\u相似性(a,b*4)
等)相同)因此,与其他向量模型相比,您所问的这个“中心”半长实例通常意义不大。一般来说,只要使用余弦相似性作为比较向量的主要方法,将向量移近原点是不相关的。因此,在这个框架中,原点实际上没有明确的含义

关于量级的警告:word2vec training创建的实际原始向量实际上具有各种量级。一些人观察到,这些程度有时与有趣的单词差异相关——例如,高度多义的单词(具有许多替代意义)通常比具有一个主导意义的单词的程度低——因为在替代上下文中“做一些有用的事”的需要在训练过程中拖拽了两个极端之间的向量,让它更“中间”。虽然逐字比较通常忽略了纯角余弦的大小
w(t+1)_j <-- w(t)_j + (error)*input_j,