Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/281.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 熊猫丢弃稀有物种_Python_Pandas_Group By - Fatal编程技术网

Python 熊猫丢弃稀有物种

Python 熊猫丢弃稀有物种,python,pandas,group-by,Python,Pandas,Group By,我对熊猫不熟悉。 为了简化,我有一个包含两列的数据框:product_id和rating。每个条目都是对给定产品的新评审。 现在我想得到一个新的数据框,其中删除了与收到少于20次评论(即在原始数据框中出现少于20次)的产品对应的行。 我可以通过以下方式计算发生的次数: a = data.groupby('product_id').count() b = a.loc[a['rating']>20] 但这给了我一个1D数据帧。显示时,每个product_id都有其计数,但我无法访问实际pro

我对熊猫不熟悉。 为了简化,我有一个包含两列的数据框:product_id和rating。每个条目都是对给定产品的新评审。 现在我想得到一个新的数据框,其中删除了与收到少于20次评论(即在原始数据框中出现少于20次)的产品对应的行。 我可以通过以下方式计算发生的次数:

a = data.groupby('product_id').count()
b = a.loc[a['rating']>20]
但这给了我一个1D数据帧。显示时,每个product_id都有其计数,但我无法访问实际product_id以使用它们筛选原始表。对于Instance

b.values
返回1D计数数组,但不返回产品ID。

您想:


酷,记住接受我的答案,我的答案左上角会有一个空的勾号。完成!我还想知道这是怎么回事:groupby+count的速度非常快,但过滤速度要慢得多,尽管这两个函数都是内置函数。我猜想,在这里,它必须解析过滤结果并根据该结果构建df,而对于
count
而言,这只是一种减少,而不必在事后过滤结果。
a = data.groupby('product_id').filter(lambda x: len(x) > 20)