Python 通过将一列中的值与另一列中的列表相匹配来压缩数据帧
我有两个数据帧,格式如下:Python 通过将一列中的值与另一列中的列表相匹配来压缩数据帧,python,pandas,Python,Pandas,我有两个数据帧,格式如下: df1 ID age [111, 222, 333] 15 [444] 9 [555, 666, 777, 888] 8 df2 ID school 222 A 777 B 我需要通过匹配ID来解析它们,以获得以
df1
ID age
[111, 222, 333] 15
[444] 9
[555, 666, 777, 888] 8
df2
ID school
222 A
777 B
我需要通过匹配ID来解析它们,以获得以下结果
df1_ID age df2_ID school
[111, 222, 333] 15 222 A
[555, 666, 777, 888] 8 777 B
df1_ID可能是一个最多包含10个ID的列表,我想不出一种有效地压缩数据帧的方法。你将如何处理这个问题?谢谢。如果想要高效地处理数据,有必要更改格式,因为在pandas中处理
列表
s显然是非常困难的
尝试:
高效压缩数据帧的方法
-您能添加一些计时吗?谢谢您的建议。按照您的建议,我发现了关于在合并之前取消数据帧测试的更多细节。
from itertools import chain
df11 = pd.DataFrame({
'ID' : list(chain.from_iterable(df1['ID'].tolist())),
'age' : df1['age'].values.repeat(df1['ID'].str.len())
})
print (df11)
ID age
0 111 15
1 222 15
2 333 15
3 444 9
4 555 8
5 666 8
6 777 8
7 888 8
df12 = df11.merge(df2, on='ID', how='left')
print (df12)
ID age school
0 111 15 NaN
1 222 15 A
2 333 15 NaN
3 444 9 NaN
4 555 8 NaN
5 666 8 NaN
6 777 8 B
7 888 8 NaN
df3 = df1.apply(lambda x: x if set(x[0]).intersection(set(df2['ID'])) else None, axis = 1)
df3 = df3.dropna().set_index('ID')
df3.reset_index(inplace = True)
final_df = pd.concat([df3, df2], axis = 1)