Python 熊猫丢弃稀有物种_Python_Pandas_Group By

Python 熊猫丢弃稀有物种

python pandas

Python 熊猫丢弃稀有物种,python,pandas,group-by,Python,Pandas,Group By,我对熊猫不熟悉。为了简化，我有一个包含两列的数据框：product_id和rating。每个条目都是对给定产品的新评审。现在我想得到一个新的数据框，其中删除了与收到少于20次评论（即在原始数据框中出现少于20次）的产品对应的行。我可以通过以下方式计算发生的次数： a = data.groupby('product_id').count() b = a.loc[a['rating']>20] 但这给了我一个1D数据帧。显示时，每个product_id都有其计数，但我无法访问实际pro

我对熊猫不熟悉。为了简化，我有一个包含两列的数据框：product_id和rating。每个条目都是对给定产品的新评审。现在我想得到一个新的数据框，其中删除了与收到少于20次评论（即在原始数据框中出现少于20次）的产品对应的行。我可以通过以下方式计算发生的次数：

a = data.groupby('product_id').count()
b = a.loc[a['rating']>20]

但这给了我一个1D数据帧。显示时，每个product_id都有其计数，但我无法访问实际product_id以使用它们筛选原始表。对于Instance

b.values

返回1D计数数组，但不返回产品ID。

您想：

酷，记住接受我的答案，我的答案左上角会有一个空的勾号。完成！我还想知道这是怎么回事：groupby+count的速度非常快，但过滤速度要慢得多，尽管这两个函数都是内置函数。我猜想，在这里，它必须解析过滤结果并根据该结果构建df，而对于

count

而言，这只是一种减少，而不必在事后过滤结果。

a = data.groupby('product_id').filter(lambda x: len(x) > 20)