Pandas 按频率过滤数据帧

Pandas 按频率过滤数据帧,pandas,dataframe,filtering,Pandas,Dataframe,Filtering,我有一个数据集,大约有5万行和15列。 我只需要选择遵循规则的某些行:“如果列“C”中的字符串在数据集中(该列内)出现超过20次,请选择该行”。它基本上是根据某一列的模式进行过滤 最后,我希望有一个大约5k行(和15列)的数据集 我试图通过对列使用value_counts()来执行此操作,但无法将其余信息与特定行匹配 提前非常感谢 让我们试试groupby()。转换和布尔索引: df.loc[df.groupby('C')['C'].transform('size') >= 20] 让我

我有一个数据集,大约有5万行和15列。 我只需要选择遵循规则的某些行:“如果列“C”中的字符串在数据集中(该列内)出现超过20次,请选择该行”。它基本上是根据某一列的模式进行过滤

最后,我希望有一个大约5k行(和15列)的数据集

我试图通过对列使用value_counts()来执行此操作,但无法将其余信息与特定行匹配

提前非常感谢

让我们试试
groupby()。转换
和布尔索引:

df.loc[df.groupby('C')['C'].transform('size') >= 20]
让我们尝试
groupby()。转换
和布尔索引:

df.loc[df.groupby('C')['C'].transform('size') >= 20]