Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/java/357.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python Gensim在半径为r的球中查找向量/字_Python_Gensim_Word Embedding - Fatal编程技术网

Python Gensim在半径为r的球中查找向量/字

Python Gensim在半径为r的球中查找向量/字,python,gensim,word-embedding,Python,Gensim,Word Embedding,我想以word book为例,得到它的向量表示,称之为v|1,并找到向量表示在v|1半径r范围内的所有单词,即| | v|u 1-v|u I | | |如果你用topn=0调用most|u相似,它将返回原始的未排序余弦相似性,与模型已知的所有其他单词相同。这些相似性不会在元组中与单词相似,而只是与index2entity属性中的单词顺序相同 然后,您可以过滤那些高于首选阈值的相似性,并使用类似numpy的函数仅返回这些索引/单词 例如: target_word = 'apple' thresho

我想以word book为例,得到它的向量表示,称之为v|1,并找到向量表示在v|1半径r范围内的所有单词,即| | v|u 1-v|u I | | |如果你用topn=0调用most|u相似,它将返回原始的未排序余弦相似性,与模型已知的所有其他单词相同。这些相似性不会在元组中与单词相似,而只是与index2entity属性中的单词顺序相同

然后,您可以过滤那些高于首选阈值的相似性,并使用类似numpy的函数仅返回这些索引/单词

例如:

target_word = 'apple'
threshold = 0.9
all_sims = wv.most_similar(target_word, topn=0)
satisfactory_indexes = np.argwhere(all_sims > threshold)
satisfactory_words = [wv.index2entity[i] for i in satisfactory_indexes]

计算到该点的欧几里德距离,然后过滤出比该点更远的记录r@Marat,谢谢你,我觉得这是蛮力。我需要遍历模型中的所有单词,还需要找出如何做到这一点。还有更快的吗?没那么糟。通常情况下,vocab的大小并没有那么大,并且正确的矢量化操作只需要几分之一秒的时间。对于多个搜索(如R树)有一些优化,但对于单个搜索,这是您唯一的选择