Tensorflow 词向量的中心_Tensorflow_Nlp_Vectorization_Word2vec_Dl4j

Tensorflow 词向量的中心

tensorflow nlp

Tensorflow 词向量的中心,tensorflow,nlp,vectorization,word2vec,dl4j,Tensorflow,Nlp,Vectorization,Word2vec,Dl4j,我正在学习NLP，并围绕着通过多层感知器的步骤进行思考。因为向量是空间中的大小和方向，所以我很好奇单词向量的中心代表什么。在一个非常简单的向量中，我的单词可能是21，-5。0,0代表什么吗？如果不是，在训练模型之后，它能代表什么吗如果我理解正确，一个以前从未见过的单词将被赋予数字恒等式和M维向量。然后，该向量进入第一层，该层的节点数与维度数相同，因此在本例中为M个节点。通过反向传播，改变权重，使相似的单词在向量空间中“分组”。（这意味着单词向量本身永远不会从它们的初始随机值修改，对吗？）。我只

我正在学习NLP，并围绕着通过多层感知器的步骤进行思考。因为向量是空间中的大小和方向，所以我很好奇单词向量的中心代表什么。在一个非常简单的向量中，我的单词可能是21，-5。0,0代表什么吗？如果不是，在训练模型之后，它能代表什么吗

如果我理解正确，一个以前从未见过的单词将被赋予数字恒等式和M维向量。然后，该向量进入第一层，该层的节点数与维度数相同，因此在本例中为M个节点。通过反向传播，改变权重，使相似的单词在向量空间中“分组”。（这意味着单词向量本身永远不会从它们的初始随机值修改，对吗？）。我只想了解一些情况

你可以把“向量”这个词在数字上看作是点。它们都从原点开始（0.0，0.0，0.0，…，0.0））并不重要

任何这样的向量的“中心”就是它的中点，这也是一个具有一半大小的相同“方向性”的向量通常但并非总是，通过“余弦相似性”（本质上是一种与长度/幅度无关的差分角度计算），仅根据原始方向，而非幅度对词向量进行比较。（因此，

cosine\u相似性（a，b）

将与

cosine\u相似性（a/2，b）

或

cosine\u相似性（a，b*4）

等）相同）因此，与其他向量模型相比，您所问的这个“中心”半长实例通常意义不大。一般来说，只要使用余弦相似性作为比较向量的主要方法，将向量移近原点是不相关的。因此，在这个框架中，原点实际上没有明确的含义

关于量级的警告：word2vec training创建的实际原始向量实际上具有各种量级。一些人观察到，这些程度有时与有趣的单词差异相关——例如，高度多义的单词（具有许多替代意义）通常比具有一个主导意义的单词的程度低——因为在替代上下文中“做一些有用的事”的需要在训练过程中拖拽了两个极端之间的向量，让它更“中间”。虽然字与字之间的比较通常会忽略这些大小，以获得纯粹的角度余弦相似性，但有时下游使用，如文本分类，可能会更好地保持原始大小

关于原点的警告：Mu、Bhat和Viswanath撰写的《至少一篇论文》指出，通常所有词向量的“平均值”不是原点，而是明显偏向一个方向——这（在我的程式化理解中）导致了整个空间的不平衡，就是否使用“所有角度”来表示意义上的对比而言。（同样，在我的实验中，这种不平衡的程度似乎与负采样中使用的

负示例的数量有关。）他们发现，对向量进行后处理以重新居中可以提高某些任务的性能，但我没有看到其他许多项目将此作为标准步骤。（他们还建议进行一些其他后处理转换，以实质上“增加最有价值维度的对比度”。）
关于你的“IIUC”，是的，单词被赋予起始向量-，但这些向量是随机的，然后在依次尝试每个训练示例后，通过反向推动不断调整，使这些“输入字”向量稍微好一些，作为神经网络的输入，神经网络试图预测附近的“目标/中心/输出”字。调整网络的“内部”/“隐藏”权重，以及输入向量本身，它们本质上是“投影权重”——从单个词汇词的一个热表示到“M个不同的内部隐藏层节点”。也就是说，每个“词向量”本质上是神经网络内部权重的特定于词的子集
 你可以把“向量”这个词在数字上看作是点。它们都从原点开始（0.0，0.0，0.0，…，0.0）
）并不重要
任何这样的向量的“中心”就是它的中点，这也是一个具有一半大小的相同“方向性”的向量通常但并非总是，通过“余弦相似性”（本质上是一种与长度/幅度无关的差分角度计算），仅根据原始方向，而非幅度对词向量进行比较。（因此，cosine\u相似性（a，b）
将与cosine\u相似性（a/2，b）
或cosine\u相似性（a，b*4）
等）相同）因此，与其他向量模型相比，您所问的这个“中心”半长实例通常意义不大。一般来说，只要使用余弦相似性作为比较向量的主要方法，将向量移近原点是不相关的。因此，在这个框架中，原点实际上没有明确的含义
关于量级的警告：word2vec training创建的实际原始向量实际上具有各种量级。一些人观察到，这些程度有时与有趣的单词差异相关——例如，高度多义的单词（具有许多替代意义）通常比具有一个主导意义的单词的程度低——因为在替代上下文中“做一些有用的事”的需要在训练过程中拖拽了两个极端之间的向量，让它更“中间”。虽然逐字比较通常忽略了纯角余弦的大小
w(t+1)_j <-- w(t)_j + (error)*input_j,