Python PySpark-在Groupby之后删除行?
我的spark是3.0版Python PySpark-在Groupby之后删除行?,python,pyspark,Python,Pyspark,我的spark是3.0版 我已按groupBy()聚合了数据。我想创建一个函数和一个阈值,如果数据量尝试使用
我已按groupBy()聚合了数据。我想创建一个函数和一个阈值,如果数据量尝试使用
并聚合以获得和(
),然后收集类别的所有值的
,然后分解数组
示例:
df.show()
#+----+----+
#|col1|col2|
#+----+----+
#| A| 250|
#| A| 250|
#| A| 50|
#| B| 250|
#| B| 250|
#| B| 50|
#| C| 5|
#| C| 5|
#| C| 10|
#+----+----+
from pyspark.sql.functions import *
df.groupBy("col1").agg(sum(col("col2")).alias("count"),collect_list(col("col2")).alias("col2")).\
filter(col("count") >200).\
select("col1",explode("col2").alias("col2")).\
show()
#+----+----+
#|col1|col2|
#+----+----+
#| B| 250|
#| B| 250|
#| B| 50|
#| A| 250|
#| A| 250|
#| A| 50|
#+----+----+
我添加了第二张图片来显示预期的输出。非常感谢。