Python 如何在两列之间找到最佳匹配？_Python_Pandas

Python 如何在两列之间找到最佳匹配？

python pandas

Python 如何在两列之间找到最佳匹配？,python,pandas,Python,Pandas,假设我有两个数据帧，df1和df2，如下所示： df1 = pd.DataFrame({'Timestamp_A': [0.6, 1.1, 1.6, 2.1, 2.6, 3.1, 3.6, 4.1, 4.6, 5.1, 5.6, 6.1, 6.6, 7.1]}) df2 = pd.DataFrame({'Timestamp_B': [2.2, 2.7, 3.2, 3.7, 5.2, 5.7]}) Timestamp_A 0 0.6 1 1.1 2 1.6 3 2.1 4

假设我有两个数据帧，df1和df2，如下所示：

df1 = pd.DataFrame({'Timestamp_A': [0.6, 1.1, 1.6, 2.1, 2.6, 3.1, 3.6, 4.1, 4.6, 5.1, 5.6, 6.1, 6.6, 7.1]})
df2 = pd.DataFrame({'Timestamp_B': [2.2, 2.7, 3.2, 3.7, 5.2, 5.7]})


Timestamp_A
0   0.6
1   1.1
2   1.6
3   2.1
4   2.6
5   3.1
6   3.6
7   4.1
8   4.6
9   5.1
10  5.6
11  6.1
12  6.6
13  7.1

Timestamp_B
0   2.2
1   2.7
2   3.2
3   3.7
4   5.2
5   5.7

每个数据帧是不同传感器读数的输出，每个数据帧以相同的频率传输。我想做的是将这两个数据帧对齐在一起，使得B中的每个时间戳与A中最接近其值的时间戳对齐。对于时间戳_A中与时间戳_B不匹配的所有值，将其替换为np.nan。有人对这样做的最佳方式有什么建议吗？以下是所需的输出：

    Timestamp_A     Timestamp_B
0   0.6     NaN
1   1.1     NaN
2   1.6     NaN
3   2.1     2.2
4   2.6     2.7
5   3.1     3.2
6   3.6     NaN
7   4.1     NaN
8   4.6     NaN
9   5.1     5.2
10  5.6     5.7
11  6.1     NaN
12  6.6     NaN
13  7.1     NaN

您可能需要一些应用程序，例如：

import pandas as pd

df1 = pd.DataFrame({'Timestamp_A': [0.6, 1.1, 1.6, 2.1, 2.6, 3.1, 3.6, 4.1, 4.6, 5.1, 5.6, 6.1, 6.6, 7.1]})
df2 = pd.DataFrame({'Timestamp_B': [2.2, 2.7, 3.2, 3.7, 5.2, 5.7]})

df3 = pd.merge_asof(df1, df2, left_on='Timestamp_A', right_on='Timestamp_B',
                    tolerance=0.5, direction='nearest')

print(df3)

输出如下：

    Timestamp_A  Timestamp_B
0           0.6          NaN
1           1.1          NaN
2           1.6          NaN
3           2.1          2.2
4           2.6          2.7
5           3.1          3.2
6           3.6          3.7
7           4.1          3.7
8           4.6          NaN
9           5.1          5.2
10          5.6          5.7
11          6.1          5.7
12          6.6          NaN
13          7.1          NaN

公差将在数字上定义“不匹配”的含义，因此这取决于您的决定。

当您只有两列

和一个赋值时，我觉得reindex
更合适
df2.index=df2.Timestamp_B
df1['New']=df2.reindex(df1.Timestamp_A,method='nearest',tolerance=0.5).values
df1
Out[109]: 
    Timestamp_A  New
0           0.6  NaN
1           1.1  NaN
2           1.6  NaN
3           2.1  2.2
4           2.6  2.7
5           3.1  3.2
6           3.6  3.7
7           4.1  3.7
8           4.6  NaN
9           5.1  5.2
10          5.6  5.7
11          6.1  5.7
12          6.6  NaN
13          7.1  NaN


查看更多列
s=pd.DataFrame(df2.reindex(df1.Timestamp_A,method='nearest',tolerance=0.5).values,index=df1.index,columns=df2.columns)
df1=pd.concat([df1,s],axis=1)

有趣的是，API说容差只接受整数或timedelta，所以我甚至没有尝试使用它。好办法@Terry hah我甚至都没看到，我只是狂妄地冲了进来&试了试XD有时文档会撒谎我猜抱歉，我忘了声明我正在处理的每个数据帧实际上都有数百列。如果只有2个，那么这绝对是一个有效的解决方案。这当然还是件好事