Python PySpark-在Groupby之后删除行?

Python PySpark-在Groupby之后删除行?,python,pyspark,Python,Pyspark,我的spark是3.0版 我已按groupBy()聚合了数据。我想创建一个函数和一个阈值,如果数据量尝试使用

我的spark是3.0版


我已按groupBy()聚合了数据。我想创建一个函数和一个阈值,如果数据量尝试使用
并聚合以获得
),然后
收集类别的所有值的
,然后分解数组

示例:

df.show()
#+----+----+
#|col1|col2|
#+----+----+
#|   A| 250|
#|   A| 250|
#|   A|  50|
#|   B| 250|
#|   B| 250|
#|   B|  50|
#|   C|   5|
#|   C|   5|
#|   C|  10|
#+----+----+

from pyspark.sql.functions import *


df.groupBy("col1").agg(sum(col("col2")).alias("count"),collect_list(col("col2")).alias("col2")).\
filter(col("count") >200).\
select("col1",explode("col2").alias("col2")).\
show()
#+----+----+
#|col1|col2|
#+----+----+
#|   B| 250|
#|   B| 250|
#|   B|  50|
#|   A| 250|
#|   A| 250|
#|   A|  50|
#+----+----+

我添加了第二张图片来显示预期的输出。非常感谢。