Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/heroku/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Nlp Gensim Word2Vec和x27的长度错误;英语词汇_Nlp_Gensim_Word2vec - Fatal编程技术网

Nlp Gensim Word2Vec和x27的长度错误;英语词汇

Nlp Gensim Word2Vec和x27的长度错误;英语词汇,nlp,gensim,word2vec,Nlp,Gensim,Word2vec,我试图通过以下方式培训Gensim Word2Vec的 X = train['text'] model_word2vec = models.Word2Vec(X.values, size=150) model_word2vec.train(X.values, total_examples=len(X.values), epochs=10) 培训结束后,我得到了一个长度74的小词汇表(model_word2vec.wv.vocab),其中只包含字母表中的字母 我怎样才能掌握正确的词汇

我试图通过以下方式培训Gensim Word2Vec的

X = train['text']    

model_word2vec = models.Word2Vec(X.values, size=150)
model_word2vec.train(X.values, total_examples=len(X.values), epochs=10)
培训结束后,我得到了一个长度
74
的小词汇表(
model_word2vec.wv.vocab
),其中只包含字母表中的字母

我怎样才能掌握正确的词汇

更新

我以前试过这个:

tokenizer = Tokenizer(lower=True)
tokenized_text = tokenizer.fit_on_texts(X)
sequence = tokenizer.texts_to_sequences(X)

model_word2vec.train(sequence, total_examples=len(X.values), epochs=10

但是我得到了同样错误的词汇量。

为模型提供它需要的语料库类型:一系列文本,其中每个文本都是字符串标记列表。如果您为它提供非标记化字符串,它会认为每个字符都是一个标记,给出您看到的结果

我已经试过了,但我得到了相同的结果。错误的词汇表大小。您必须仍然在传递字符串或其他内容,而不是字符串列表的iterable序列。我在网上找到的关于
text\u to\u sequences()
方法的唯一文档表明,它将文本转换为整数列表,这是错误的。请尝试打印
sequence[0]
,如果打印不起作用,请打印
iter(sequence).next()
以查看传递给
Word2Vec
的单个文本的示例。如果它不是一个字符串列表,比如
['hello',world']
,那么您就没有给
Word2Vec
正确的输入。我在
标记化过程中发现了一个问题。我改变了标记化方法,现在它开始工作了。