Nlp Gensim最相似的方法系数非常低_Nlp_Gensim_Word2vec_Word Embedding

Nlp Gensim最相似的方法系数非常低

nlp

Nlp Gensim最相似的方法系数非常低,nlp,gensim,word2vec,word-embedding,Nlp,Gensim,Word2vec,Word Embedding,我使用gensim训练单词嵌入word2vec模型，然后使用最相似的方法找到最相关的单词 Word to search: forest 结果如下： Most similar words: [('wood', 0.2495424747467041), ('trees', 0.24147865176200867), ('distant', 0.2403097301721573), ('island', 0.2402323037)] 我想知道为什么这个系数很低，即使最上面的单词也小于0.25

我使用gensim训练单词嵌入word2vec模型，然后使用最相似的方法找到最相关的单词

Word to search:  forest

结果如下：

Most similar words:  [('wood', 0.2495424747467041), ('trees', 0.24147865176200867), ('distant', 0.2403097301721573), ('island', 0.2402323037)]

我想知道为什么这个系数很低，即使最上面的单词也小于0.25

谢谢大家!

您使用了多少培训数据？培训内容？是的，请描述您使用的培训数据、您运行的培训代码概述以及培训参数。同样奇怪的是，您最相似的输出仅显示4个单词：这样的输出通常默认为10个结果。（如果你只在只有5个独特单词的文本上进行训练，你无论如何都不会得到有趣的结果，因为类似word2vec的算法需要大量不同的数据才能给出有意义的结果。）我在5本《权力的游戏—冰与火之歌》书上进行了训练。我刚刚展示了前4名，只是举个例子。我有20个顶级关联词，所以这不是问题所在。型号=Word2Vec（列车数据，尺寸=300，窗口=10，最小计数=5，工人=10，iter=1000，sg=0）