Python Gensim Word2Vec词汇表：输出不清楚_Python_Python 3.x_Text Mining_Gensim_Word2vec

Python Gensim Word2Vec词汇表：输出不清楚

python python-3.x

Python Gensim Word2Vec词汇表：输出不清楚,python,python-3.x,text-mining,gensim,word2vec,Python,Python 3.x,Text Mining,Gensim,Word2vec,我开始熟悉Word2Vec，但我遇到了一个问题，找不到类似的东西。。。我想在一本书中导入的PDF文档上使用gensims Word2Vec。为了导入，我使用PyPDF2并将整本书存储到一个列表中。此外，为了对数据进行预处理，我使用了gensims simple_preprocess。到目前为止，这一切都很有效，我得到了以下输出： text=[‘肖特基’、‘二极管’、‘半导体’、…] 然后我试着用2VEC这个词：从gensim.models导入Word2Vec model=Word2Vecte

我开始熟悉Word2Vec，但我遇到了一个问题，找不到类似的东西。。。我想在一本书中导入的PDF文档上使用gensims Word2Vec。为了导入，我使用PyPDF2并将整本书存储到一个列表中。此外，为了对数据进行预处理，我使用了gensims simple_preprocess。到目前为止，这一切都很有效，我得到了以下输出：

text=[‘肖特基’、‘二极管’、‘半导体’、…] 然后我试着用2VEC这个词：

从gensim.models导入Word2Vec model=Word2Vectext，size=100，window=5，minu count=5，workers=4 words=listmodel.wv.vocab 但结果是这样的：

印刷字 [c'，'h'，'t'，'k'，'d'，…] 我还期望与文本列表中的单词相同，而不仅仅是一些字符。当我试图找出单词之间的关系时，例如“肖特基”和“二极管”，我得到的错误信息是，词汇表中没有这些单词

我的第一个想法是导入是错误的，但是我用textract而不是PyPDF2得到了相同的结果

有人知道问题出在哪里吗？谢谢你的帮助

附件:

导入该书

content_text=[] 输入的数量=lenos.listdirpath

    file_to_open=path
open_file=open(file_to_open,'rb')
read_pdf=PyPDF2.PdfFileReader(open_file)
number_of_pages=read_pdf.getNumPages()
page_content=""
for page_number in range(number_of_pages):
    page = read_pdf.getPage(page_number)
    page_content += page.extractText()
content_text.append(page_content)

而不是 text=[‘肖特基’、‘二极管’、‘半导体’]

用这个 text=[['肖特基'，'二极管'，'半导体']]

更多信息：

Word2Vec需要一个训练语料库作为其句子参数，即：

可编辑的序列，如列表其中每个项目本身就是一个字符串标记列表如果您只提供一个字符串列表，则每个字符串都将被视为一个字符串列表，从而生成您看到的所有单字母单词

因此，使用一个单词列表，更像：

[
 ['schottky','diode','semiconductors'],
]

还要注意的是，通常情况下，在只有几条文本和几十到几百个单词的玩具大小的数据集上，您不会得到有趣的Word2Vec结果。您需要数千个独特的单词，跨越每个单词的几十个对比示例，以归纳Word2Vec所熟知的有用的单词向量排列。

语料库需要是一个单词列表，如@Vivek在答案中所建议的那样