Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/339.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python word2vec vocab vs char_Python_Word2vec - Fatal编程技术网

Python word2vec vocab vs char

Python word2vec vocab vs char,python,word2vec,Python,Word2vec,我使用word2vec将我的单词表示为向量 text = np.loadtxt("file.txt", dtype=str, delimiter=" ") word2vec = w2v.Word2Vec(text, size=100, window=5, min_count=5, workers=4) print(len(word2vec.wv.vocab)) 文本是单词(字符串)的列表。该代码不打印字数,而是打印26个英文字母。为了将word2vec训练到我的模型中,我需要处理的是单词,而不

我使用word2vec将我的单词表示为向量

text = np.loadtxt("file.txt", dtype=str, delimiter=" ")
word2vec = w2v.Word2Vec(text, size=100, window=5, min_count=5, workers=4)
print(len(word2vec.wv.vocab))

文本是单词(字符串)的列表。该代码不打印字数,而是打印26个英文字母。为了将word2vec训练到我的模型中,我需要处理的是单词,而不是字母。我尝试过将文本转换为字符串,但没有成功。我做错了什么?

我认为您需要传递一个单词列表:

word2vec = w2v.Word2Vec(text.reshape(-1, 1), size=100, window=5, min_count=5, workers=4)

text
是一个单词列表吗?我想它起作用了。非常感谢。你知道它是计算唯一单词的数量还是重复单词的数量被重复计算?@HYUNJAECHO如果这些单词被重复,我相信词汇统计只考虑唯一单词。但在训练模型时,会考虑并行重复项,并影响最终结果。另外,考虑一下.@ CaldSuffo,这样我就可以构建向量,但我认为我的模型不能很好地捕捉单词之间的关系。例如,print model.similarity('big','large')是-0.025776764676135。你有办法修理它吗?我知道我可以使用谷歌的预构建模型,但使用它根本不能代表我的文本。有没有一种方法可以使用预构建的模型并将其训练到我的模型中?我想我可以这样做:model=KeyedVectors.load_word2vec_format('GoogleNews-vectors-negative300.bin',binary=True)model.build_vocab(text,update=True)model.train(text),但我得到AttributeError:'KeyedVectors'对象没有属性'build_vocab'。您知道如何修复此问题吗?@HYUNJAECHO您需要大量文本才能获得有意义的向量关系。你的语料库有多大?