Nlp 文档的顺序是否影响Gensim短语模型的结果?

Nlp 文档的顺序是否影响Gensim短语模型的结果?,nlp,gensim,phrase,Nlp,Gensim,Phrase,我只是用不同的顺序测试了相同的文档集,令人惊讶的是,我发现这些文档中的ngram略有不同。这是对还是错?我试图找出其他因素,但除了顺序之外,没有发现文件中有任何差异 因此,我猜测Gensim的短语模型是一个概率模型(即马尔可夫模型),它受文档顺序的影响,因为它是基于文档中的单词的更新概率 我说得对吗?还是有其他原因造成这种差异?哪些Python和Gensim版本?一个训练语料库有多大,就单词总数和唯一性而言?

我只是用不同的顺序测试了相同的文档集,令人惊讶的是,我发现这些文档中的ngram略有不同。这是对还是错?我试图找出其他因素,但除了顺序之外,没有发现文件中有任何差异

因此,我猜测Gensim的短语模型是一个概率模型(即马尔可夫模型),它受文档顺序的影响,因为它是基于文档中的单词的更新概率


我说得对吗?还是有其他原因造成这种差异?

哪些Python和Gensim版本?一个训练语料库有多大,就单词总数和唯一性而言?