Python Gensim Word2Vec词汇表:输出不清楚

Python Gensim Word2Vec词汇表:输出不清楚,python,python-3.x,text-mining,gensim,word2vec,Python,Python 3.x,Text Mining,Gensim,Word2vec,我开始熟悉Word2Vec,但我遇到了一个问题,找不到类似的东西。。。 我想在一本书中导入的PDF文档上使用gensims Word2Vec。为了导入,我使用PyPDF2并将整本书存储到一个列表中。此外,为了对数据进行预处理,我使用了gensims simple_preprocess。到目前为止,这一切都很有效,我得到了以下输出: text=[‘肖特基’、‘二极管’、‘半导体’、…] 然后我试着用2VEC这个词: 从gensim.models导入Word2Vec model=Word2Vecte

我开始熟悉Word2Vec,但我遇到了一个问题,找不到类似的东西。。。 我想在一本书中导入的PDF文档上使用gensims Word2Vec。为了导入,我使用PyPDF2并将整本书存储到一个列表中。此外,为了对数据进行预处理,我使用了gensims simple_preprocess。到目前为止,这一切都很有效,我得到了以下输出:

text=[‘肖特基’、‘二极管’、‘半导体’、…] 然后我试着用2VEC这个词:

从gensim.models导入Word2Vec model=Word2Vectext,size=100,window=5,minu count=5,workers=4 words=listmodel.wv.vocab 但结果是这样的:

印刷字 [c','h','t','k','d',…] 我还期望与文本列表中的单词相同,而不仅仅是一些字符。当我试图找出单词之间的关系时,例如“肖特基”和“二极管”,我得到的错误信息是,词汇表中没有这些单词

我的第一个想法是导入是错误的,但是我用textract而不是PyPDF2得到了相同的结果

有人知道问题出在哪里吗?谢谢你的帮助

附件:

导入该书

content_text=[] 输入的数量=lenos.listdirpath

    file_to_open=path
open_file=open(file_to_open,'rb')
read_pdf=PyPDF2.PdfFileReader(open_file)
number_of_pages=read_pdf.getNumPages()
page_content=""
for page_number in range(number_of_pages):
    page = read_pdf.getPage(page_number)
    page_content += page.extractText()
content_text.append(page_content)
而不是 text=[‘肖特基’、‘二极管’、‘半导体’]

用这个 text=[['肖特基','二极管','半导体']]

更多信息:

Word2Vec需要一个训练语料库作为其句子参数,即:

可编辑的序列,如列表 其中每个项目本身就是一个字符串标记列表 如果您只提供一个字符串列表,则每个字符串都将被视为一个字符串列表,从而生成您看到的所有单字母单词

因此,使用一个单词列表,更像:

[
 ['schottky','diode','semiconductors'],
]

还要注意的是,通常情况下,在只有几条文本和几十到几百个单词的玩具大小的数据集上,您不会得到有趣的Word2Vec结果。您需要数千个独特的单词,跨越每个单词的几十个对比示例,以归纳Word2Vec所熟知的有用的单词向量排列。

语料库需要是一个单词列表,如@Vivek在答案中所建议的那样