Vector 是否有理由不为集群规范化Doc2Vec的文档输出向量？_Vector_Nlp_Linear Algebra_Word2vec_Doc2vec

Vector 是否有理由不为集群规范化Doc2Vec的文档输出向量？

vector nlp

Vector 是否有理由不为集群规范化Doc2Vec的文档输出向量？,vector,nlp,linear-algebra,word2vec,doc2vec,Vector,Nlp,Linear Algebra,Word2vec,Doc2vec,我知道在Word2Vec中，单词向量的长度可以编码术语频率之类的属性。在这种情况下，我们可以看到两个词向量，比如同义词，具有相似的含义，但根据它们在语料库中的使用情况，长度不同然而，如果我们规范化这些词向量，我们就保留了它们的“意义方向”，我们可以根据这一点对它们进行分类：意义按照这种思路，同样的方法也适用于Doc2Vec中的文档向量但我的问题是，如果我们想对文档向量进行聚类，是否有理由不规范文档向量？在Word2Vec中，我们可以说我们希望保持单词的频率属性，文档是否也有类似的情况？我不

我知道在Word2Vec中，单词向量的长度可以编码术语频率之类的属性。在这种情况下，我们可以看到两个词向量，比如同义词，具有相似的含义，但根据它们在语料库中的使用情况，长度不同

然而，如果我们规范化这些词向量，我们就保留了它们的“意义方向”，我们可以根据这一点对它们进行分类：意义

按照这种思路，同样的方法也适用于Doc2Vec中的文档向量

但我的问题是，如果我们想对文档向量进行聚类，是否有理由不规范文档向量？在Word2Vec中，我们可以说我们希望保持单词的频率属性，文档是否也有类似的情况？

我不熟悉任何推理或研究先例，这意味着单元规范化或非规范化文档向量更适合聚类

所以，我会尝试两种方法，看看哪种方法对你的目的更有效

其他想法：

在

Word2Vec

中，我的总体印象是，较大的词向量与训练数据中含义更明确的词相关联。（也就是说，它们可靠地倾向于暗示相同的较小的相邻单词集。）同时，具有多重含义（多义）的单词和许多其他不同单词中的用法倾向于具有较低的数量向量

尽管如此，比较这些向量的常用方法，余弦相似性，还是忽略了大小。这很可能是因为大多数比较只需要一个词的最佳意义，而没有任何更微妙的“意义统一”指标

Doc2Vec

vectors中可能存在类似的效果：较低数量级的文档向量可能暗示文档具有更广泛的单词用法/主题，而较高数量级的文档向量则暗示文档更集中。（我也有类似的预感，较长的文档可能倾向于具有较低的文档向量，因为它们使用了更大的单词多样性，而具有较窄单词/主题集的小文档可能具有较高的文档向量。但我没有具体观察/测试这一预感，这里的任何效果都可能受到其他培训选择，如培训迭代次数。）

因此，非规范化向量可能会对某些集群目标感兴趣，比如将重点文档从更一般的文档中分离出来。因此，在进行了较长时间的分析之后：我建议尝试两种方法，看看其中一种是否更适合您的特定需求。

因此，这似乎仍然是一个有待研究的问题是的，在进行更多实验后，甚至可能没有一个最佳答案，而是取决于项目目标、数据、，和其他参数选择。