Python doc2vec的调整大小参数_Python_Cluster Analysis_Gensim_Doc2vec

Python doc2vec的调整大小参数

python

Python doc2vec的调整大小参数,python,cluster-analysis,gensim,doc2vec,Python,Cluster Analysis,Gensim,Doc2vec,我有一个1.2mil的单句描述（5-50个单词）的数据集，我想把它们分为n个簇。对于向量转换，我想使用doc2vec获得1.2mil大小相等的向量。但是，我不确定大小参数应该是什么。我已经读过，它应该在100-300之间，但是因为在这种情况下，如果向量很小，每个文档的标记（单词）就更少了？您的数据——超过一百万个文本，可能有几千万个单词——肯定足够大，可以尝试100维的默认向量大小拥有较小数据集的人可能需要尝试更小的向量大小，但这与Doc2Vec（“段落向量”）工作良好的情况相去甚远但是，数

我有一个1.2mil的单句描述（5-50个单词）的数据集，我想把它们分为n个簇。对于向量转换，我想使用doc2vec获得1.2mil大小相等的向量。但是，我不确定大小参数应该是什么。我已经读过，它应该在100-300之间，但是因为在这种情况下，如果向量很小，每个文档的标记（单词）就更少了？

您的数据——超过一百万个文本，可能有几千万个单词——肯定足够大，可以尝试100维的默认向量大小

拥有较小数据集的人可能需要尝试更小的向量大小，但这与

Doc2Vec

（“段落向量”）工作良好的情况相去甚远

但是，数据集和目标的实际最佳大小必须通过实验来确定。（如果你的数据集主要是5个单词的文本，如果你的独特单词的词汇量很小，也许你也需要尝试更小的大小。）

没有一个答案——文本/词汇的多样性以及数据中的模式将影响最佳选择。只有拥有自己的特定于项目的可重复评估（可用于比较备选方案），才能引导您选择最佳方案