python如何优化DataFrame中列的嵌套循环元素排序?
我有以下单列数据框:python如何优化DataFrame中列的嵌套循环元素排序?,python,pandas,numpy,optimization,Python,Pandas,Numpy,Optimization,我有以下单列数据框: keys ---- 'hvo45cj' '849hydg' 'umh74la' 'glhj5es' 'c8atge' 'trd68b' ... 我试图生成另一个列/数组(df的长度相同),其中包含来自相同列的元素的索引号,这些元素几乎相似(惰性匹配)。 例如: 钥匙 比赛 “hvo45cj” 0, 199 “849hydg” 1, 78, 89 您是否需要对相同的索引进
keys
----
'hvo45cj'
'849hydg'
'umh74la'
'glhj5es'
'c8atge'
'trd68b'
...
我试图生成另一个列/数组(df的长度相同),其中包含来自相同列的元素的索引号,这些元素几乎相似(惰性匹配)。
例如:
钥匙
比赛
“hvo45cj”
0, 199
“849hydg”
1, 78, 89
您是否需要对相同的索引进行两次比较?例如索引1和索引2。。。然后是2和1?另外,考虑模块。有助于知道相似性得分是如何计算的。只是一个想法:也许你可以一个热编码所有的键,他们执行DISSIMILILITY匹配(RDKIT库)。我用它来搜索类似的化学结构,这也是一个热编码(它相当快)。请提供预期的(MRE)。我们应该能够复制和粘贴一个连续的代码块,执行该文件,并再现您的问题以及跟踪问题点的输出。这让我们可以根据您的测试数据和期望的输出来测试我们的建议。作为您的MRE的一部分。感谢您的回复,比较相同的索引两次是没有必要的,我将实现多处理和@john mommers的一个热门建议