Python 在Gensim.Doc2Vec中应用相似函数
我试图让doc2vec函数在python 3中工作。 我有以下代码:Python 在Gensim.Doc2Vec中应用相似函数,python,gensim,doc2vec,Python,Gensim,Doc2vec,我试图让doc2vec函数在python 3中工作。 我有以下代码: tekstdata = [[ index, str(row["StatementOfTargetFiguresAndPoliciesForTheUnderrepresentedGender"])] for index, row in data.iterrows()] def prep (x): low = x.lower() return word_tokenize(low) def cleanMuch(da
tekstdata = [[ index, str(row["StatementOfTargetFiguresAndPoliciesForTheUnderrepresentedGender"])] for index, row in data.iterrows()]
def prep (x):
low = x.lower()
return word_tokenize(low)
def cleanMuch(data, clean):
output = []
for x, y in data:
z = clean(y)
output.append([str(x), z])
return output
tekstdata = cleanMuch(tekstdata, prep)
def tagdocs(docs):
output = []
for x,y in docs:
output.append(gensim.models.doc2vec.TaggedDocument(y, x))
return output
tekstdata = tagdocs(tekstdata)
print(tekstdata[100])
vectorModel = gensim.models.doc2vec.Doc2Vec(tekstdata, size = 100, window = 4,min_count = 3, iter = 2)
ranks = []
second_ranks = []
for x, y in tekstdata:
print (x)
print (y)
inferred_vector = vectorModel.infer_vector(y)
sims = vectorModel.docvecs.most_similar([inferred_vector], topn=1001, restrict_vocab = None)
rank = [docid for docid, sim in sims].index(y)
ranks.append(rank)
就我所能理解的而言,在使用秩函数之前,一切都是有效的。
我得到的错误是,我的列表中没有零,例如,我放入的文档列表中没有10个:
File "C:/Users/Niels Helsø/Documents/github/Speciale/Test/Data prep.py", line 59, in <module>
rank = [docid for docid, sim in sims].index(y)
ValueError: '10' is not in list
文件“C:/Users/Niels Helsø/Documents/github/Speciale/Test/Data prep.py”,第59行,在
秩=[docid代表docid,sims中的sim]。索引(y)
ValueError:“10”不在列表中
在我看来,是类似的功能不起作用。
该模型对我的数据(1000个文档)进行训练,并构建一个带标签的vocab。
我主要使用的文档如下:
我希望有人能帮忙。如果需要任何其他信息,请让我知道。
最好的
Niels如果您得到的是
ValueError:“10”不在列表中
,您可以依靠'10'
不在列表中这一事实。那么你有没有看过这个列表,看看有什么,它是否符合你的期望
从您的代码摘录中不清楚是否调用过tagdocs()
,因此不清楚tekstdata
在提供给Doc2Vec
时是什么形式。意图有点复杂,没有任何东西可以显示数据以原始原始形式显示的内容
但是,您提供给TaggedDocument
的标记可能不是必需的标记列表,而是一个简单的字符串,它将被解释为字符列表。因此,即使您提供了标记的'10'
,它也将被视为['1','0']
,len(vectorModel.doctags)
仅为10(对于10个单位数字符串)
有关设置的单独注释:
- 对于
Doc2Vec
,1000个文档相当小,其中大多数已发布的结果使用数万到数百万个文档
- 10-20的
iter
在Doc2Vec
工作中更为常见(对于较小的数据集,更大的值可能会有所帮助)
expert_vector()
通常在可选参数中使用非默认值时效果更好,尤其是步骤更大(20-200)的步骤或更像批量训练默认值(0.025
)