Python 将每组中两列之间的差异相加
我有一个Python 将每组中两列之间的差异相加,python,python-3.x,pandas,dataframe,pandas-groupby,Python,Python 3.x,Pandas,Dataframe,Pandas Groupby,我有一个df看起来像 A B C D 2017-10-01 2017-10-11 M 2017-10 2017-10-02 2017-10-03 M 2017-10 2017-11-01 2017-11-04 B 2017-11 2017-11-08 2017-11-09 B 2017-11 2018-01-01 2018-01-0
df
看起来像
A B C D
2017-10-01 2017-10-11 M 2017-10
2017-10-02 2017-10-03 M 2017-10
2017-11-01 2017-11-04 B 2017-11
2017-11-08 2017-11-09 B 2017-11
2018-01-01 2018-01-03 A 2018-01
A
和B
的dtype
是datetime64
,C
和D
是字符串
我喜欢通过groupby
C
和D
获得B
和A
之间的差异
df.groupby(['C', 'D']).apply(lambda row: row['B'] - row['A'])
但我不知道如何将各组的差异相加,并将值分配到一个新的列,比如说E
,可能是在一个新的df
中
C D E
M 2017-10 11
M 2017-10 11
B 2017-11 4
B 2017-11 4
A 2018-01 2
基于您的代码
df.merge(df.groupby(['C', 'D']).apply(lambda row: row['B'] - row['A']).sum(level=[0,1]).reset_index())
Out[292]:
A B C D 0
0 2017-10-01 2017-10-11 M 2017-10 11 days
1 2017-10-02 2017-10-03 M 2017-10 11 days
2 2017-11-01 2017-11-04 B 2017-11 4 days
3 2017-11-08 2017-11-09 B 2017-11 4 days
4 2018-01-01 2018-01-03 A 2018-01 2 days
给定示例的预期输出是什么?当您
groupby
对A
和B
列的差异应用什么函数时,您想知道是否可以对一行代码也应用Timedelta.days
,这样我就不必df['E'].apply(λx:x.days)
稍后?@daiyue您可以尝试在这里添加df.groupby(['C',D']).apply(lambda行:(行['B']-行['A'].days)属性错误:“Series”对象没有属性“days”
@daiyue让我们试试df.groupby(['C',D']).apply(lambda行:(行['B']-行['A'])/np timedelta64(1,'D')。/code>@daiyue(df.B-df.A).dt.天