Python 通过将一列中的值与另一列中的列表相匹配来压缩数据帧_Python_Pandas

Python 通过将一列中的值与另一列中的列表相匹配来压缩数据帧

python pandas

Python 通过将一列中的值与另一列中的列表相匹配来压缩数据帧,python,pandas,Python,Pandas,我有两个数据帧，格式如下： df1 ID age [111, 222, 333] 15 [444] 9 [555, 666, 777, 888] 8 df2 ID school 222 A 777 B 我需要通过匹配ID来解析它们，以获得以

我有两个数据帧，格式如下：

    df1

    ID                     age
    [111, 222, 333]        15
    [444]                  9
    [555, 666, 777, 888]   8


    df2

    ID                school
    222               A
    777               B

我需要通过匹配ID来解析它们，以获得以下结果

    df1_ID                 age   df2_ID   school 
    [111, 222, 333]        15    222      A
    [555, 666, 777, 888]   8     777      B

df1_ID可能是一个最多包含10个ID的列表，我想不出一种有效地压缩数据帧的方法。你将如何处理这个问题？谢谢。

如果想要高效地处理数据，有必要更改格式，因为在pandas中处理

列表

s显然是非常困难的

尝试：

高效压缩数据帧的方法

-您能添加一些计时吗？谢谢您的建议。按照您的建议，我发现了关于在合并之前取消数据帧测试的更多细节。

from itertools import chain

df11 = pd.DataFrame({
    'ID' : list(chain.from_iterable(df1['ID'].tolist())), 
    'age' : df1['age'].values.repeat(df1['ID'].str.len())
})

print (df11)
    ID  age
0  111   15
1  222   15
2  333   15
3  444    9
4  555    8
5  666    8
6  777    8
7  888    8

df12 = df11.merge(df2, on='ID', how='left')
print (df12)
    ID  age school
0  111   15    NaN
1  222   15      A
2  333   15    NaN
3  444    9    NaN
4  555    8    NaN
5  666    8    NaN
6  777    8      B
7  888    8    NaN

df3 = df1.apply(lambda x: x if set(x[0]).intersection(set(df2['ID'])) else None, axis = 1)
df3 = df3.dropna().set_index('ID')
df3.reset_index(inplace = True)
final_df = pd.concat([df3, df2], axis = 1)