Nlp 使用手套获取最相似的单词_Nlp_Stanford Nlp_Word Embedding

Nlp 使用手套获取最相似的单词

nlp stanford-nlp

Nlp 使用手套获取最相似的单词,nlp,stanford-nlp,word-embedding,Nlp,Stanford Nlp,Word Embedding,我是新手。我成功地运行了他们的网站上给出的。运行演示后，我创建了几个文件，如vocab，vectors等，但它们没有任何文档或任何东西描述我们需要使用哪些文件以及如何使用这些文件来查找最相似的词因此，请帮助我找到手套中给定单词最相似的单词（使用余弦相似性）？（例如，与Gensim word2vec中的大多数类似代码相似）请帮帮我如何生成单词向量并不重要，您始终可以计算单词之间的余弦相似度。实现您要求的最简单的方法是（考虑到您有gensim）： python-m gensim.scripts

我是新手。我成功地运行了他们的网站上给出的。运行演示后，我创建了几个文件，如

vocab

，

vectors

等，但它们没有任何文档或任何东西描述我们需要使用哪些文件以及如何使用这些文件来查找最相似的词

因此，请帮助我找到手套中给定单词最相似的单词（使用余弦相似性）？（例如，与Gensim word2vec中的大多数类似代码相似）

请帮帮我

如何生成单词向量并不重要，您始终可以计算单词之间的余弦相似度。实现您要求的最简单的方法是（考虑到您有gensim）：

python-m gensim.scripts.glove2word2vec–输入–输出

这将手套矢量文件转换为w2v格式。您也可以手动执行此操作-只需在手套文件中添加额外的一行，在文件顶部包含向量总数及其维度。它看起来有点像：

180000 300
<The rest of your file>

180000 300

之后，您可以将该文件加载到gensim中，一切都像普通的w2v模型一样工作

非常感谢你的回答。我试图编辑demo.sh并将其用于我的文本文件。然而，我得到一个错误，说：

28987分割错误：11$BUILDDIR/globate-保存文件$save\u文件-输入文件$coccurrence\u SHUF\u文件-iter$MAX\u iter-向量大小$vector\u大小-vocab文件$vocab\u文件

你能告诉我为什么会发生这种情况吗？或者你能告诉我一个构建我自己手套模型的一致方法吗？

180000 300
<The rest of your file>