Vector 是否有理由不为集群规范化Doc2Vec的文档输出向量?

Vector 是否有理由不为集群规范化Doc2Vec的文档输出向量?,vector,nlp,linear-algebra,word2vec,doc2vec,Vector,Nlp,Linear Algebra,Word2vec,Doc2vec,我知道在Word2Vec中,单词向量的长度可以编码术语频率之类的属性。在这种情况下,我们可以看到两个词向量,比如同义词,具有相似的含义,但根据它们在语料库中的使用情况,长度不同 然而,如果我们规范化这些词向量,我们就保留了它们的“意义方向”,我们可以根据这一点对它们进行分类:意义 按照这种思路,同样的方法也适用于Doc2Vec中的文档向量 但我的问题是,如果我们想对文档向量进行聚类,是否有理由不规范文档向量?在Word2Vec中,我们可以说我们希望保持单词的频率属性,文档是否也有类似的情况?我不

我知道在Word2Vec中,单词向量的长度可以编码术语频率之类的属性。在这种情况下,我们可以看到两个词向量,比如同义词,具有相似的含义,但根据它们在语料库中的使用情况,长度不同

然而,如果我们规范化这些词向量,我们就保留了它们的“意义方向”,我们可以根据这一点对它们进行分类:意义

按照这种思路,同样的方法也适用于Doc2Vec中的文档向量


但我的问题是,如果我们想对文档向量进行聚类,是否有理由不规范文档向量?在Word2Vec中,我们可以说我们希望保持单词的频率属性,文档是否也有类似的情况?

我不熟悉任何推理或研究先例,这意味着单元规范化或非规范化文档向量更适合聚类

所以,我会尝试两种方法,看看哪种方法对你的目的更有效

其他想法:

Word2Vec
中,我的总体印象是,较大的词向量与训练数据中含义更明确的词相关联。(也就是说,它们可靠地倾向于暗示相同的较小的相邻单词集。)同时,具有多重含义(多义)的单词和许多其他不同单词中的用法倾向于具有较低的数量向量

尽管如此,比较这些向量的常用方法,余弦相似性,还是忽略了大小。这很可能是因为大多数比较只需要一个词的最佳意义,而没有任何更微妙的“意义统一”指标

Doc2Vec
vectors中可能存在类似的效果:较低数量级的文档向量可能暗示文档具有更广泛的单词用法/主题,而较高数量级的文档向量则暗示文档更集中。(我也有类似的预感,较长的文档可能倾向于具有较低的文档向量,因为它们使用了更大的单词多样性,而具有较窄单词/主题集的小文档可能具有较高的文档向量。但我没有具体观察/测试这一预感,这里的任何效果都可能受到其他培训选择,如培训迭代次数。)


因此,非规范化向量可能会对某些集群目标感兴趣,比如将重点文档从更一般的文档中分离出来。因此,在进行了较长时间的分析之后:我建议尝试两种方法,看看其中一种是否更适合您的特定需求。

因此,这似乎仍然是一个有待研究的问题是的,在进行更多实验后,甚至可能没有一个最佳答案,而是取决于项目目标、数据、,和其他参数选择。