Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/298.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 查看报告的简短描述。我应该使用Word2Vec还是Doc2Vec_Python_Machine Learning_Nlp_Word2vec_Doc2vec - Fatal编程技术网

Python 查看报告的简短描述。我应该使用Word2Vec还是Doc2Vec

Python 查看报告的简短描述。我应该使用Word2Vec还是Doc2Vec,python,machine-learning,nlp,word2vec,doc2vec,Python,Machine Learning,Nlp,Word2vec,Doc2vec,因此,我有近2000份报告,每份报告都有相关的问题简短描述。我的目标是对所有这些报告进行分类,以便我们能够在这些报告中发现不同的趋势 我想使用一些上下文文本向量的特性之一。现在,我已经使用了Word2Vec,并且认为这是一个好的选择,但是我也认为Doc2Vec对于这个用例,我不太确定什么是更好的选择 如有任何反馈,将不胜感激 它们非常相似,所以就像使用单一方法一样,您可以尝试以某种严格的方式调整参数以改进结果,您应该同时尝试这两种方法,并比较结果 你的数据集听起来很小,相比之下,任何一个都需要诱

因此,我有近2000份报告,每份报告都有相关的问题简短描述。我的目标是对所有这些报告进行分类,以便我们能够在这些报告中发现不同的趋势

我想使用一些上下文文本向量的特性之一。现在,我已经使用了
Word2Vec
,并且认为这是一个好的选择,但是我也认为
Doc2Vec
对于这个用例,我不太确定什么是更好的选择


如有任何反馈,将不胜感激

它们非常相似,所以就像使用单一方法一样,您可以尝试以某种严格的方式调整参数以改进结果,您应该同时尝试这两种方法,并比较结果

你的数据集听起来很小,相比之下,任何一个都需要诱导好的向量——Word2Vec最好是在数百万到数十亿个单词的语料库上进行训练,而Doc2Vec发布的结果依赖于数万到数百万个文档

如果从单词向量构成文档的某些摘要向量,您可以潜在地利用从其他地方重用的单词向量,但如果向量的原始训练语料库在词汇/领域语言使用方面与您的语料库相似,则效果最好。例如,不要期望接受过正式新闻写作训练的词汇与非正式推文很好地配合,甚至涵盖了相同的词汇,反之亦然

如果您有一个更大的类似文本文档库来训练Doc2Vec模型,那么您可以在整个文档集上训练一个好的模型,但是只需使用您的小子集,或者为您的小子集重新推断向量,就可以得到比只在您的子集上训练的模型更好的结果


严格来说,对于聚类而言,如果您当前的短文本语料库很小,那么如果您从其他地方获得了很好的词向量,那么值得一看计算成对文档间相似性的“词移动器距离”方法。在较大的文档和较大的文档集上进行计算可能会很昂贵,但可能会很好地支持聚类。

它们非常相似,因此,就像使用单一方法一样,您可以尝试以某种严格的方式调整参数以改进结果,您应该同时尝试这两种方法,并比较结果

你的数据集听起来很小,相比之下,任何一个都需要诱导好的向量——Word2Vec最好是在数百万到数十亿个单词的语料库上进行训练,而Doc2Vec发布的结果依赖于数万到数百万个文档

如果从单词向量构成文档的某些摘要向量,您可以潜在地利用从其他地方重用的单词向量,但如果向量的原始训练语料库在词汇/领域语言使用方面与您的语料库相似,则效果最好。例如,不要期望接受过正式新闻写作训练的词汇与非正式推文很好地配合,甚至涵盖了相同的词汇,反之亦然

如果您有一个更大的类似文本文档库来训练Doc2Vec模型,那么您可以在整个文档集上训练一个好的模型,但是只需使用您的小子集,或者为您的小子集重新推断向量,就可以得到比只在您的子集上训练的模型更好的结果


严格来说,对于聚类而言,如果您当前的短文本语料库很小,那么如果您从其他地方获得了很好的词向量,那么值得一看计算成对文档间相似性的“词移动器距离”方法。在较大的文档和较大的文档集上进行计算可能会很昂贵,但可能很好地支持聚类。

您的语料库似乎非常小(2000个简短的文本描述)。除非您使用预先训练好的模型,否则我建议您坚持使用传统的tf-idf+余弦距离对文档进行聚类。在如此微小的数据上重新训练一个这样的模型不太可能给你带来好的结果。你的语料库似乎非常小(2000个简短的文本描述)。除非您使用预先训练好的模型,否则我建议您坚持使用传统的tf-idf+余弦距离对文档进行聚类。在如此微小的数据上重新训练一个这样的模型不可能给你带来好的结果。