Python 按列分组，然后根据条件进行筛选_Python_Pandas_Dataframe_Group By_Pandas Groupby

Python 按列分组，然后根据条件进行筛选

python pandas dataframe

Python 按列分组，然后根据条件进行筛选,python,pandas,dataframe,group-by,pandas-groupby,Python,Pandas,Dataframe,Group By,Pandas Groupby,我有一个df，我想根据分组筛选出一列。我想按组合保留分组（cc，odd，tree1，和tree2），如果第4天，则保留，否则放弃 df = pd.DataFrame() df['cc'] = ['BB', 'BB', 'BB', 'BB','BB', 'BB','BB', 'BB', 'DD', 'DD', 'DD', 'DD', 'DD', 'DD', 'DD', 'DD', 'ZZ', 'ZZ', 'ZZ', 'ZZ', 'ZZ', 'ZZ', 'ZZ', 'ZZ'] df['odd'] =

我有一个df，我想根据分组筛选出一列。我想按组合保留分组（

cc

，

odd

，

tree1

，和

tree2

），如果第4天，则保留，否则放弃

df = pd.DataFrame()
df['cc'] = ['BB', 'BB', 'BB', 'BB','BB', 'BB','BB', 'BB', 'DD', 'DD', 'DD', 'DD', 'DD', 'DD', 'DD', 'DD', 'ZZ', 'ZZ', 'ZZ', 'ZZ', 'ZZ', 'ZZ', 'ZZ', 'ZZ']
df['odd'] = [3434, 3434, 3434, 3434, 3435, 3435, 3435, 3435, 3434, 3434, 3434, 3434, 3435, 3435, 3435, 3435, 3434, 3434, 3434, 3434, 3435, 3435, 3435, 3435]
df['tree1'] = ['ASP', 'ASP', 'ASP', 'ASP', 'SAP', 'SAP', 'SAP', 'SAP', 'ASP', 'ASP', 'ASP', 'ASP', 'SAP', 'SAP', 'SAP', 'SAP', 'ASP', 'ASP', 'ASP', 'ASP', 'SAP', 'SAP', 'SAP', 'SAP']
df['tree2'] = ['ATK', 'ATK','ATK','ATK','ATK','ATK','ATK','ATK', 'ATK', 'ATK','ATK','ATK','ATK','ATK','ATK','ATK', 'ATK', 'ATK','ATK','ATK','ATK','ATK','ATK','ATK']
df['day'] = [1, 2, 3, 4, 3, 4, 5, 6, 2, 3, 4, 5, 1, 3, 5, 7, 1, 2, 6, 8, 2, 4, 6, 8]
df

我尝试了这个方法，但这会删除任何日值小于4的行

df_grouped = df.groupby(['cc', 'odd', 'tree1', 'tree2']).filter(df['day'] > 4)

我收到此错误

TypeError:“Series”对象不可调用

我试过这个

df_grouped = df.groupby(['cc', 'odd', 'tree1', 'tree2']).filter(lambda x: x['day'] > 4)

我得到了这个错误

TypeError:filter函数返回了一个序列，但需要一个标量bool

我搜索并试图解决这些错误，但建议的解决方案对我不起作用。我希望获得如下df：

df1 = pd.DataFrame()
df1['cc'] = ['BB', 'BB','BB', 'BB', 'DD', 'DD', 'DD', 'DD', 'DD', 'DD', 'DD', 'DD', 'ZZ', 'ZZ', 'ZZ', 'ZZ', 'ZZ', 'ZZ', 'ZZ', 'ZZ']
df1['odd'] = [3435, 3435, 3435, 3435, 3434, 3434, 3434, 3434, 3435, 3435, 3435, 3435, 3434, 3434, 3434, 3434, 3435, 3435, 3435, 3435]
df1['tree1'] = ['SAP', 'SAP', 'SAP', 'SAP', 'ASP', 'ASP', 'ASP', 'ASP', 'SAP', 'SAP', 'SAP', 'SAP', 'ASP', 'ASP', 'ASP', 'ASP', 'SAP', 'SAP', 'SAP', 'SAP']
df1['tree2'] = ['ATK','ATK','ATK','ATK', 'ATK', 'ATK','ATK','ATK','ATK','ATK','ATK','ATK', 'ATK', 'ATK','ATK','ATK','ATK','ATK','ATK','ATK']
df1['day'] = [3, 4, 5, 6, 2, 3, 4, 5, 1, 3, 5, 7, 1, 2, 6, 8, 2, 4, 6, 8]
df1

我曾尝试使用

any

的逻辑函数，但无法使其正常工作，它只向我返回

True

或

False

，而不是经过过滤的数据帧。

IIUC您想要：

In[116]:
df_grouped = df.groupby(['cc', 'odd', 'tree1', 'tree2']).filter(lambda x: (x['day'] > 4).any())
df_grouped

Out[116]: 
    cc   odd tree1 tree2  day
4   BB  3435   SAP   ATK    3
5   BB  3435   SAP   ATK    4
6   BB  3435   SAP   ATK    5
7   BB  3435   SAP   ATK    6
8   DD  3434   ASP   ATK    2
9   DD  3434   ASP   ATK    3
10  DD  3434   ASP   ATK    4
11  DD  3434   ASP   ATK    5
12  DD  3435   SAP   ATK    1
13  DD  3435   SAP   ATK    3
14  DD  3435   SAP   ATK    5
15  DD  3435   SAP   ATK    7
16  ZZ  3434   ASP   ATK    1
17  ZZ  3434   ASP   ATK    2
18  ZZ  3434   ASP   ATK    6
19  ZZ  3434   ASP   ATK    8
20  ZZ  3435   SAP   ATK    2
21  ZZ  3435   SAP   ATK    4
22  ZZ  3435   SAP   ATK    6
23  ZZ  3435   SAP   ATK    8

因此，这将过滤掉组内所有

'day'

值均不大于4的组

计时：

%timeit df[df.day.gt(4).groupby([df.cc, df.odd, df.tree1, df.tree2]).transform('any')]
%timeit df.groupby(['cc', 'odd', 'tree1', 'tree2']).filter(lambda x: (x['day'] > 4).any())
%timeit df[df.assign(key=df.day > 4).groupby(['cc', 'odd', 'tree1', 'tree2']).key.transform('any')]
100 loops, best of 3: 5.9 ms per loop
100 loops, best of 3: 5.42 ms per loop
100 loops, best of 3: 3.62 ms per loop

因此@coldspeed的第一个方法是这里最快的

现在我已经了解了您想要什么，让我们尝试一下类似于

变换的方法

任意

：

df[df.assign(key=df.day > 4)
     .groupby(['cc', 'odd', 'tree1', 'tree2']).key.transform('any')
]

或者

你不能在分组之前先过滤df吗？。过滤之后你甚至需要

groupby

吗？

groupby

是用于聚合的。没有，过滤对组起作用，我想基于groupby保留值大于4的行，因为groupby定义了当天的分组。如果我过滤，那么gro向上，它将删除所有4行或更小的行，这是我不想看到的。您的问题是格式不正确的。您想按组大小进行筛选，对吗？不是组大小，我想检查基于groupby的最大日值，如果它大于4，则保留此组的行，如果不是，则删除这些组的所有行。我认为我的问题无法解决更清楚：）@coldspeed为什么它是重复的？我不是要求一个简单的组过滤，请再次阅读我的问题。重复的问题根本不能解决我的问题。如果你能在布尔列上分组，你可以完全避免lambda。回答得很好。@coldspeed当然，我会试试的（哦，这是我的答案，但你肯定可以试试类似的东西）@coldspeed啊，对了，那就离开吧，说到熊猫，我有点老土了days@jezrael我必须查看源代码，但我猜，

filter

是多用途的，因为它希望为每个组生成一个布尔序列，以确定成员身份，并为组重新创建布尔掩码并返回df，使用

transform

您知道，您只需为原始df生成一个布尔掩码，该掩码具有相同的索引，这样就减少了猜测，增加了优化范围。您的第一种方法是速度更快的方法，我添加了计时，看起来

转换

比使用

过滤器

@EdChum更快地强制返回原始df谢谢@coldspeed两种解决方案都很有效，谢谢。正如Edchum所写，当我在2500万行上运行时，第一个解决方案要快得多

df[df.day.gt(4).groupby([df.cc, df.odd, df.tree1, df.tree2]).transform('any')]

    cc   odd tree1 tree2  day
4   BB  3435   SAP   ATK    3
5   BB  3435   SAP   ATK    4
6   BB  3435   SAP   ATK    5
7   BB  3435   SAP   ATK    6
8   DD  3434   ASP   ATK    2
9   DD  3434   ASP   ATK    3
10  DD  3434   ASP   ATK    4
11  DD  3434   ASP   ATK    5
12  DD  3435   SAP   ATK    1
13  DD  3435   SAP   ATK    3
14  DD  3435   SAP   ATK    5
15  DD  3435   SAP   ATK    7
16  ZZ  3434   ASP   ATK    1
17  ZZ  3434   ASP   ATK    2
18  ZZ  3434   ASP   ATK    6
19  ZZ  3434   ASP   ATK    8
20  ZZ  3435   SAP   ATK    2
21  ZZ  3435   SAP   ATK    4
22  ZZ  3435   SAP   ATK    6
23  ZZ  3435   SAP   ATK    8