Nlp Gensim Word2Vec和x27的长度错误;英语词汇
我试图通过以下方式培训Gensim Word2Vec的Nlp Gensim Word2Vec和x27的长度错误;英语词汇,nlp,gensim,word2vec,Nlp,Gensim,Word2vec,我试图通过以下方式培训Gensim Word2Vec的 X = train['text'] model_word2vec = models.Word2Vec(X.values, size=150) model_word2vec.train(X.values, total_examples=len(X.values), epochs=10) 培训结束后,我得到了一个长度74的小词汇表(model_word2vec.wv.vocab),其中只包含字母表中的字母 我怎样才能掌握正确的词汇
X = train['text']
model_word2vec = models.Word2Vec(X.values, size=150)
model_word2vec.train(X.values, total_examples=len(X.values), epochs=10)
培训结束后,我得到了一个长度74
的小词汇表(model_word2vec.wv.vocab
),其中只包含字母表中的字母
我怎样才能掌握正确的词汇
更新
我以前试过这个:
tokenizer = Tokenizer(lower=True)
tokenized_text = tokenizer.fit_on_texts(X)
sequence = tokenizer.texts_to_sequences(X)
model_word2vec.train(sequence, total_examples=len(X.values), epochs=10
但是我得到了同样错误的词汇量。为模型提供它需要的语料库类型:一系列文本,其中每个文本都是字符串标记列表。如果您为它提供非标记化字符串,它会认为每个字符都是一个标记,给出您看到的结果 我已经试过了,但我得到了相同的结果。错误的词汇表大小。您必须仍然在传递字符串或其他内容,而不是字符串列表的iterable序列。我在网上找到的关于text\u to\u sequences()
方法的唯一文档表明,它将文本转换为整数列表,这是错误的。请尝试打印sequence[0]
,如果打印不起作用,请打印iter(sequence).next()
以查看传递给Word2Vec
的单个文本的示例。如果它不是一个字符串列表,比如['hello',world']
,那么您就没有给Word2Vec
正确的输入。我在标记化过程中发现了一个问题。我改变了标记化方法,现在它开始工作了。