Nlp Gensim最相似的方法系数非常低

Nlp Gensim最相似的方法系数非常低,nlp,gensim,word2vec,word-embedding,Nlp,Gensim,Word2vec,Word Embedding,我使用gensim训练单词嵌入word2vec模型,然后使用最相似的方法找到最相关的单词 Word to search: forest 结果如下: Most similar words: [('wood', 0.2495424747467041), ('trees', 0.24147865176200867), ('distant', 0.2403097301721573), ('island', 0.2402323037)] 我想知道为什么这个系数很低,即使最上面的单词也小于0.25

我使用gensim训练单词嵌入word2vec模型,然后使用最相似的方法找到最相关的单词

Word to search:  forest 
结果如下:

Most similar words:  [('wood', 0.2495424747467041), ('trees', 0.24147865176200867), ('distant', 0.2403097301721573), ('island', 0.2402323037)]
我想知道为什么这个系数很低,即使最上面的单词也小于0.25


谢谢大家!

您使用了多少培训数据?培训内容?是的,请描述您使用的培训数据、您运行的培训代码概述以及培训参数。同样奇怪的是,您最相似的输出仅显示4个单词:这样的输出通常默认为10个结果。(如果你只在只有5个独特单词的文本上进行训练,你无论如何都不会得到有趣的结果,因为类似word2vec的算法需要大量不同的数据才能给出有意义的结果。)我在5本《权力的游戏—冰与火之歌》书上进行了训练。我刚刚展示了前4名,只是举个例子。我有20个顶级关联词,所以这不是问题所在。型号=Word2Vec(列车数据,尺寸=300,窗口=10,最小计数=5,工人=10,iter=1000,sg=0)