Python Gensim在半径为r的球中查找向量/字_Python_Gensim_Word Embedding

Python Gensim在半径为r的球中查找向量/字

python

Python Gensim在半径为r的球中查找向量/字,python,gensim,word-embedding,Python,Gensim,Word Embedding,我想以word book为例，得到它的向量表示，称之为v|1，并找到向量表示在v|1半径r范围内的所有单词，即| | v|u 1-v|u I | | |如果你用topn=0调用most|u相似，它将返回原始的未排序余弦相似性，与模型已知的所有其他单词相同。这些相似性不会在元组中与单词相似，而只是与index2entity属性中的单词顺序相同然后，您可以过滤那些高于首选阈值的相似性，并使用类似numpy的函数仅返回这些索引/单词例如： target_word = 'apple' thresho

然后，您可以过滤那些高于首选阈值的相似性，并使用类似numpy的函数仅返回这些索引/单词

例如：

target_word = 'apple'
threshold = 0.9
all_sims = wv.most_similar(target_word, topn=0)
satisfactory_indexes = np.argwhere(all_sims > threshold)
satisfactory_words = [wv.index2entity[i] for i in satisfactory_indexes]

计算到该点的欧几里德距离，然后过滤出比该点更远的记录r@Marat，谢谢你，我觉得这是蛮力。我需要遍历模型中的所有单词，还需要找出如何做到这一点。还有更快的吗？没那么糟。通常情况下，vocab的大小并没有那么大，并且正确的矢量化操作只需要几分之一秒的时间。对于多个搜索（如R树）有一些优化，但对于单个搜索，这是您唯一的选择