按条件子集python数据帧_Python_Pandas_Numpy

按条件子集python数据帧

python pandas numpy

按条件子集python数据帧,python,pandas,numpy,Python,Pandas,Numpy,我试图选择count>250的名称行，这里称为effect。因此，我们将尝试找到其平均速率 t3=dfnew.groupby('name')['ratings'] t4=t3.count() t5=t4[t4.values>250] t6=t3.mean() t6[(t6.index==t5.index)] 显然问题出在我代码的最后一行。我想把t6的索引和t5的索引匹配起来。如果它们匹配，则保存它，否则将其忽略。这有点像SQL中的内部联接我应该如何修改最后一行假设数据帧是这样的 in

我试图选择count>250的名称行，这里称为effect。因此，我们将尝试找到其平均速率

t3=dfnew.groupby('name')['ratings']
t4=t3.count()
t5=t4[t4.values>250]
t6=t3.mean()
t6[(t6.index==t5.index)]

显然问题出在我代码的最后一行。我想把t6的索引和t5的索引匹配起来。如果它们匹配，则保存它，否则将其忽略。这有点像SQL中的内部联接

我应该如何修改最后一行

假设数据帧是这样的

input:
name ratings
    A  1
    A  2
    :
    A  251
    B  1
    B  2
    :
    B  230

因此，预期结果应为126（（1+251）/2））

当我同时聚合两个函数时，它可以正常工作。

请提供一个示例数据帧以及预期输出；这样就更容易帮助了。@Cleb嗨，我现在知道了。既然你已经找到了解决问题的另一种方法，我就给你一个简短的解释：

这两个索引的长度不同。

Output
A  126

t3=dfnew.groupby('name')['ratings'].agg(['count','mean'])

t5=t3[t3['count']>250]
t5