python如何优化DataFrame中列的嵌套循环元素排序?

python如何优化DataFrame中列的嵌套循环元素排序?,python,pandas,numpy,optimization,Python,Pandas,Numpy,Optimization,我有以下单列数据框: keys ---- 'hvo45cj' '849hydg' 'umh74la' 'glhj5es' 'c8atge' 'trd68b' ... 我试图生成另一个列/数组(df的长度相同),其中包含来自相同列的元素的索引号,这些元素几乎相似(惰性匹配)。 例如: 钥匙 比赛 “hvo45cj” 0, 199 “849hydg” 1, 78, 89 您是否需要对相同的索引进

我有以下单列数据框:

 keys
 ----  
'hvo45cj'        
'849hydg'         
'umh74la'         
'glhj5es'        
'c8atge'      
'trd68b'        
...
我试图生成另一个列/数组(df的长度相同),其中包含来自相同列的元素的索引号,这些元素几乎相似(惰性匹配)。 例如:

钥匙 比赛 “hvo45cj” 0, 199 “849hydg” 1, 78, 89
您是否需要对相同的索引进行两次比较?例如索引1和索引2。。。然后是2和1?另外,考虑模块。有助于知道相似性得分是如何计算的。只是一个想法:也许你可以一个热编码所有的键,他们执行DISSIMILILITY匹配(RDKIT库)。我用它来搜索类似的化学结构,这也是一个热编码(它相当快)。请提供预期的(MRE)。我们应该能够复制和粘贴一个连续的代码块,执行该文件,并再现您的问题以及跟踪问题点的输出。这让我们可以根据您的测试数据和期望的输出来测试我们的建议。作为您的MRE的一部分。感谢您的回复,比较相同的索引两次是没有必要的,我将实现多处理和@john mommers的一个热门建议