Python 使用手套快速获取文档向量的方法问题_Python_Pandas_Nlp_Word Embedding

Python 使用手套快速获取文档向量的方法问题

python pandas nlp

Python 使用手套快速获取文档向量的方法问题,python,pandas,nlp,word-embedding,Python,Pandas,Nlp,Word Embedding,我试图用手套来代表整个文件。然而，手套最初是为了嵌入单词而设计的。获取文档嵌入的一种方法是取文档中所有单词嵌入的平均值我正在按照发布的解决方案加载手套查找表。但是，当我尝试嵌入文档时，运行时非常慢（对于100多万个文档，每个文档大约1秒）我想知道是否有任何方法可以加快这一进程手套查找表可以下载，下面是我用来获取文档嵌入的代码。数据存储在pd.DataFrame（）中，其中有一个review列注意，text\u processed\u列表中可能有一些单词不在查找表中，这就是为什么try…c

我试图用手套来代表整个文件。然而，手套最初是为了嵌入单词而设计的。获取文档嵌入的一种方法是取文档中所有单词嵌入的平均值

我正在按照发布的解决方案加载手套查找表。但是，当我尝试嵌入文档时，运行时非常慢（对于100多万个文档，每个文档大约1秒）

我想知道是否有任何方法可以加快这一进程

手套查找表可以下载，下面是我用来获取文档嵌入的代码。数据存储在

pd.DataFrame（）

中，其中有一个

review

列

注意，

text\u processed\u列表中可能有一些单词不在查找表中，这就是为什么try…catch…
起作用的原因
将numpy导入为np
作为pd进口熊猫
导入字符串
导入csv
从nltk.tokenize导入单词\u tokenize
从nltk.corpus导入停止词
remove_list=stopwords.words（'english'）+列表（字符串.标点符号）
X=np.0（（数据集大小，300））
手套型号=pd.read表格（“手套42B.300d.txt”，sep=“”，索引列=0，标题=无，引号=csv.QUOTE无）
对于范围内的iter（数据集大小）：
text=data.loc[iter，“审查”]
text_processed_list=[如果单词不在remove_list中，则单词标记化（text.lower（））中的单词对单词]
对于文本\u已处理\u列表中的单词：
尝试：
X[iter]+=gloot_model.loc[word].数值
除KeyError外：
通过
X[iter]/=len（文本处理列表）