Python 使用手套快速获取文档向量的方法 问题

Python 使用手套快速获取文档向量的方法 问题,python,pandas,nlp,word-embedding,Python,Pandas,Nlp,Word Embedding,我试图用手套来代表整个文件。然而,手套最初是为了嵌入单词而设计的。获取文档嵌入的一种方法是取文档中所有单词嵌入的平均值 我正在按照发布的解决方案加载手套查找表。但是,当我尝试嵌入文档时,运行时非常慢(对于100多万个文档,每个文档大约1秒) 我想知道是否有任何方法可以加快这一进程 手套查找表可以下载,下面是我用来获取文档嵌入的代码。数据存储在pd.DataFrame()中,其中有一个review列 注意,text\u processed\u列表中可能有一些单词不在查找表中,这就是为什么try…c

我试图用手套来代表整个文件。然而,手套最初是为了嵌入单词而设计的。获取文档嵌入的一种方法是取文档中所有单词嵌入的平均值

我正在按照发布的解决方案加载手套查找表。但是,当我尝试嵌入文档时,运行时非常慢(对于100多万个文档,每个文档大约1秒)

我想知道是否有任何方法可以加快这一进程

手套查找表可以下载,下面是我用来获取文档嵌入的代码。数据存储在
pd.DataFrame()
中,其中有一个
review

注意,
text\u processed\u列表中可能有一些单词不在查找表中,这就是为什么
try…catch…
起作用的原因

将numpy导入为np
作为pd进口熊猫
导入字符串
导入csv
从nltk.tokenize导入单词\u tokenize
从nltk.corpus导入停止词
remove_list=stopwords.words('english')+列表(字符串.标点符号)
X=np.0((数据集大小,300))
手套型号=pd.read表格(“手套42B.300d.txt”,sep=“”,索引列=0,标题=无,引号=csv.QUOTE无)
对于范围内的iter(数据集大小):
text=data.loc[iter,“审查”]
text_processed_list=[如果单词不在remove_list中,则单词标记化(text.lower())中的单词对单词]
对于文本\u已处理\u列表中的单词:
尝试:
X[iter]+=gloot_model.loc[word].数值
除KeyError外:
通过
X[iter]/=len(文本处理列表)