Python word2vec vocab vs char_Python_Word2vec

Python word2vec vocab vs char

python

Python word2vec vocab vs char,python,word2vec,Python,Word2vec,我使用word2vec将我的单词表示为向量 text = np.loadtxt("file.txt", dtype=str, delimiter=" ") word2vec = w2v.Word2Vec(text, size=100, window=5, min_count=5, workers=4) print(len(word2vec.wv.vocab)) 文本是单词（字符串）的列表。该代码不打印字数，而是打印26个英文字母。为了将word2vec训练到我的模型中，我需要处理的是单词，而不

我使用word2vec将我的单词表示为向量

text = np.loadtxt("file.txt", dtype=str, delimiter=" ")
word2vec = w2v.Word2Vec(text, size=100, window=5, min_count=5, workers=4)
print(len(word2vec.wv.vocab))

文本是单词（字符串）的列表。该代码不打印字数，而是打印26个英文字母。为了将word2vec训练到我的模型中，我需要处理的是单词，而不是字母。我尝试过将文本转换为字符串，但没有成功。我做错了什么？

我认为您需要传递一个单词列表：

word2vec = w2v.Word2Vec(text.reshape(-1, 1), size=100, window=5, min_count=5, workers=4)

text

是一个单词列表吗？我想它起作用了。非常感谢。你知道它是计算唯一单词的数量还是重复单词的数量被重复计算？@HYUNJAECHO如果这些单词被重复，我相信词汇统计只考虑唯一单词。但在训练模型时，会考虑并行重复项，并影响最终结果。另外，考虑一下.@ CaldSuffo，这样我就可以构建向量，但我认为我的模型不能很好地捕捉单词之间的关系。例如，print model.similarity（'big'，'large'）是-0.025776764676135。你有办法修理它吗？我知道我可以使用谷歌的预构建模型，但使用它根本不能代表我的文本。有没有一种方法可以使用预构建的模型并将其训练到我的模型中？我想我可以这样做：model=KeyedVectors.load_word2vec_format（'GoogleNews-vectors-negative300.bin'，binary=True）model.build_vocab（text，update=True）model.train（text），但我得到AttributeError:'KeyedVectors'对象没有属性'build_vocab'。您知道如何修复此问题吗？@HYUNJAECHO您需要大量文本才能获得有意义的向量关系。你的语料库有多大？