Python doc2vec的调整大小参数

Python doc2vec的调整大小参数,python,cluster-analysis,gensim,doc2vec,Python,Cluster Analysis,Gensim,Doc2vec,我有一个1.2mil的单句描述(5-50个单词)的数据集,我想把它们分为n个簇。对于向量转换,我想使用doc2vec获得1.2mil大小相等的向量。但是,我不确定大小参数应该是什么。我已经读过,它应该在100-300之间,但是因为在这种情况下,如果向量很小,每个文档的标记(单词)就更少了?您的数据——超过一百万个文本,可能有几千万个单词——肯定足够大,可以尝试100维的默认向量大小 拥有较小数据集的人可能需要尝试更小的向量大小,但这与Doc2Vec(“段落向量”)工作良好的情况相去甚远 但是,数

我有一个1.2mil的单句描述(5-50个单词)的数据集,我想把它们分为n个簇。对于向量转换,我想使用doc2vec获得1.2mil大小相等的向量。但是,我不确定大小参数应该是什么。我已经读过,它应该在100-300之间,但是因为在这种情况下,如果向量很小,每个文档的标记(单词)就更少了?

您的数据——超过一百万个文本,可能有几千万个单词——肯定足够大,可以尝试100维的默认向量大小

拥有较小数据集的人可能需要尝试更小的向量大小,但这与
Doc2Vec
(“段落向量”)工作良好的情况相去甚远

但是,数据集和目标的实际最佳大小必须通过实验来确定。(如果你的数据集主要是5个单词的文本,如果你的独特单词的词汇量很小,也许你也需要尝试更小的大小。)

没有一个答案——文本/词汇的多样性以及数据中的模式将影响最佳选择。只有拥有自己的特定于项目的可重复评估(可用于比较备选方案),才能引导您选择最佳方案