python如何优化DataFrame中列的嵌套循环元素排序？_Python_Pandas_Numpy_Optimization

python如何优化DataFrame中列的嵌套循环元素排序？

python pandas numpy optimization

python如何优化DataFrame中列的嵌套循环元素排序？,python,pandas,numpy,optimization,Python,Pandas,Numpy,Optimization,我有以下单列数据框： keys ---- 'hvo45cj' '849hydg' 'umh74la' 'glhj5es' 'c8atge' 'trd68b' ... 我试图生成另一个列/数组（df的长度相同），其中包含来自相同列的元素的索引号，这些元素几乎相似（惰性匹配）。例如：钥匙比赛 “hvo45cj” 0, 199 “849hydg” 1, 78, 89 您是否需要对相同的索引进

我有以下单列数据框：

 keys
 ----  
'hvo45cj'        
'849hydg'         
'umh74la'         
'glhj5es'        
'c8atge'      
'trd68b'        
...

我试图生成另一个列/数组（df的长度相同），其中包含来自相同列的元素的索引号，这些元素几乎相似（惰性匹配）。例如：

钥匙比赛 “hvo45cj” 0, 199 “849hydg” 1, 78, 89

您是否需要对相同的索引进行两次比较？例如索引1和索引2。。。然后是2和1？另外，考虑模块。有助于知道相似性得分是如何计算的。只是一个想法：也许你可以一个热编码所有的键，他们执行DISSIMILILITY匹配（RDKIT库）。我用它来搜索类似的化学结构，这也是一个热编码（它相当快）。请提供预期的（MRE）。我们应该能够复制和粘贴一个连续的代码块，执行该文件，并再现您的问题以及跟踪问题点的输出。这让我们可以根据您的测试数据和期望的输出来测试我们的建议。作为您的MRE的一部分。感谢您的回复，比较相同的索引两次是没有必要的，我将实现多处理和@john mommers的一个热门建议