Python 按列分组,然后根据条件进行筛选
我有一个df,我想根据分组筛选出一列。我想按组合保留分组(Python 按列分组,然后根据条件进行筛选,python,pandas,dataframe,group-by,pandas-groupby,Python,Pandas,Dataframe,Group By,Pandas Groupby,我有一个df,我想根据分组筛选出一列。我想按组合保留分组(cc,odd,tree1,和tree2),如果第4天,则保留,否则放弃 df = pd.DataFrame() df['cc'] = ['BB', 'BB', 'BB', 'BB','BB', 'BB','BB', 'BB', 'DD', 'DD', 'DD', 'DD', 'DD', 'DD', 'DD', 'DD', 'ZZ', 'ZZ', 'ZZ', 'ZZ', 'ZZ', 'ZZ', 'ZZ', 'ZZ'] df['odd'] =
cc
,odd
,tree1
,和tree2
),如果第4天,则保留,否则放弃
df = pd.DataFrame()
df['cc'] = ['BB', 'BB', 'BB', 'BB','BB', 'BB','BB', 'BB', 'DD', 'DD', 'DD', 'DD', 'DD', 'DD', 'DD', 'DD', 'ZZ', 'ZZ', 'ZZ', 'ZZ', 'ZZ', 'ZZ', 'ZZ', 'ZZ']
df['odd'] = [3434, 3434, 3434, 3434, 3435, 3435, 3435, 3435, 3434, 3434, 3434, 3434, 3435, 3435, 3435, 3435, 3434, 3434, 3434, 3434, 3435, 3435, 3435, 3435]
df['tree1'] = ['ASP', 'ASP', 'ASP', 'ASP', 'SAP', 'SAP', 'SAP', 'SAP', 'ASP', 'ASP', 'ASP', 'ASP', 'SAP', 'SAP', 'SAP', 'SAP', 'ASP', 'ASP', 'ASP', 'ASP', 'SAP', 'SAP', 'SAP', 'SAP']
df['tree2'] = ['ATK', 'ATK','ATK','ATK','ATK','ATK','ATK','ATK', 'ATK', 'ATK','ATK','ATK','ATK','ATK','ATK','ATK', 'ATK', 'ATK','ATK','ATK','ATK','ATK','ATK','ATK']
df['day'] = [1, 2, 3, 4, 3, 4, 5, 6, 2, 3, 4, 5, 1, 3, 5, 7, 1, 2, 6, 8, 2, 4, 6, 8]
df
我尝试了这个方法,但这会删除任何日值小于4的行
df_grouped = df.groupby(['cc', 'odd', 'tree1', 'tree2']).filter(df['day'] > 4)
我收到此错误TypeError:“Series”对象不可调用
我试过这个
df_grouped = df.groupby(['cc', 'odd', 'tree1', 'tree2']).filter(lambda x: x['day'] > 4)
我得到了这个错误TypeError:filter函数返回了一个序列,但需要一个标量bool
我搜索并试图解决这些错误,但建议的解决方案对我不起作用。我希望获得如下df:
df1 = pd.DataFrame()
df1['cc'] = ['BB', 'BB','BB', 'BB', 'DD', 'DD', 'DD', 'DD', 'DD', 'DD', 'DD', 'DD', 'ZZ', 'ZZ', 'ZZ', 'ZZ', 'ZZ', 'ZZ', 'ZZ', 'ZZ']
df1['odd'] = [3435, 3435, 3435, 3435, 3434, 3434, 3434, 3434, 3435, 3435, 3435, 3435, 3434, 3434, 3434, 3434, 3435, 3435, 3435, 3435]
df1['tree1'] = ['SAP', 'SAP', 'SAP', 'SAP', 'ASP', 'ASP', 'ASP', 'ASP', 'SAP', 'SAP', 'SAP', 'SAP', 'ASP', 'ASP', 'ASP', 'ASP', 'SAP', 'SAP', 'SAP', 'SAP']
df1['tree2'] = ['ATK','ATK','ATK','ATK', 'ATK', 'ATK','ATK','ATK','ATK','ATK','ATK','ATK', 'ATK', 'ATK','ATK','ATK','ATK','ATK','ATK','ATK']
df1['day'] = [3, 4, 5, 6, 2, 3, 4, 5, 1, 3, 5, 7, 1, 2, 6, 8, 2, 4, 6, 8]
df1
我曾尝试使用any
的逻辑函数,但无法使其正常工作,它只向我返回True
或False
,而不是经过过滤的数据帧。IIUC您想要:
In[116]:
df_grouped = df.groupby(['cc', 'odd', 'tree1', 'tree2']).filter(lambda x: (x['day'] > 4).any())
df_grouped
Out[116]:
cc odd tree1 tree2 day
4 BB 3435 SAP ATK 3
5 BB 3435 SAP ATK 4
6 BB 3435 SAP ATK 5
7 BB 3435 SAP ATK 6
8 DD 3434 ASP ATK 2
9 DD 3434 ASP ATK 3
10 DD 3434 ASP ATK 4
11 DD 3434 ASP ATK 5
12 DD 3435 SAP ATK 1
13 DD 3435 SAP ATK 3
14 DD 3435 SAP ATK 5
15 DD 3435 SAP ATK 7
16 ZZ 3434 ASP ATK 1
17 ZZ 3434 ASP ATK 2
18 ZZ 3434 ASP ATK 6
19 ZZ 3434 ASP ATK 8
20 ZZ 3435 SAP ATK 2
21 ZZ 3435 SAP ATK 4
22 ZZ 3435 SAP ATK 6
23 ZZ 3435 SAP ATK 8
因此,这将过滤掉组内所有'day'
值均不大于4的组
计时:
%timeit df[df.day.gt(4).groupby([df.cc, df.odd, df.tree1, df.tree2]).transform('any')]
%timeit df.groupby(['cc', 'odd', 'tree1', 'tree2']).filter(lambda x: (x['day'] > 4).any())
%timeit df[df.assign(key=df.day > 4).groupby(['cc', 'odd', 'tree1', 'tree2']).key.transform('any')]
100 loops, best of 3: 5.9 ms per loop
100 loops, best of 3: 5.42 ms per loop
100 loops, best of 3: 3.62 ms per loop
因此@coldspeed的第一个方法是这里最快的现在我已经了解了您想要什么,让我们尝试一下类似于
变换的方法
+任意
:
df[df.assign(key=df.day > 4)
.groupby(['cc', 'odd', 'tree1', 'tree2']).key.transform('any')
]
或者
你不能在分组之前先过滤df吗?。过滤之后你甚至需要
groupby
吗?groupby
是用于聚合的。没有,过滤对组起作用,我想基于groupby保留值大于4的行,因为groupby定义了当天的分组。如果我过滤,那么gro向上,它将删除所有4行或更小的行,这是我不想看到的。您的问题是格式不正确的。您想按组大小进行筛选,对吗?不是组大小,我想检查基于groupby的最大日值,如果它大于4,则保留此组的行,如果不是,则删除这些组的所有行。我认为我的问题无法解决更清楚:)@coldspeed为什么它是重复的?我不是要求一个简单的组过滤,请再次阅读我的问题。重复的问题根本不能解决我的问题。如果你能在布尔列上分组,你可以完全避免lambda。回答得很好。@coldspeed当然,我会试试的(哦,这是我的答案,但你肯定可以试试类似的东西)@coldspeed啊,对了,那就离开吧,说到熊猫,我有点老土了days@jezrael我必须查看源代码,但我猜,filter
是多用途的,因为它希望为每个组生成一个布尔序列,以确定成员身份,并为组重新创建布尔掩码并返回df,使用transform
您知道,您只需为原始df生成一个布尔掩码,该掩码具有相同的索引,这样就减少了猜测,增加了优化范围。您的第一种方法是速度更快的方法,我添加了计时,看起来转换
比使用过滤器
@EdChum更快地强制返回原始df谢谢@coldspeed两种解决方案都很有效,谢谢。正如Edchum所写,当我在2500万行上运行时,第一个解决方案要快得多
df[df.day.gt(4).groupby([df.cc, df.odd, df.tree1, df.tree2]).transform('any')]
cc odd tree1 tree2 day
4 BB 3435 SAP ATK 3
5 BB 3435 SAP ATK 4
6 BB 3435 SAP ATK 5
7 BB 3435 SAP ATK 6
8 DD 3434 ASP ATK 2
9 DD 3434 ASP ATK 3
10 DD 3434 ASP ATK 4
11 DD 3434 ASP ATK 5
12 DD 3435 SAP ATK 1
13 DD 3435 SAP ATK 3
14 DD 3435 SAP ATK 5
15 DD 3435 SAP ATK 7
16 ZZ 3434 ASP ATK 1
17 ZZ 3434 ASP ATK 2
18 ZZ 3434 ASP ATK 6
19 ZZ 3434 ASP ATK 8
20 ZZ 3435 SAP ATK 2
21 ZZ 3435 SAP ATK 4
22 ZZ 3435 SAP ATK 6
23 ZZ 3435 SAP ATK 8