Python 在筛选和分组后显示所有起始的独立元素_Python_Apache Spark_Pyspark_Apache Spark Sql_Pyspark Dataframes

Python 在筛选和分组后显示所有起始的独立元素

python apache-spark pyspark

Python 在筛选和分组后显示所有起始的独立元素,python,apache-spark,pyspark,apache-spark-sql,pyspark-dataframes,Python,Apache Spark,Pyspark,Apache Spark Sql,Pyspark Dataframes,这是我的起始数据帧： salesDf 项目名称销售数量苹果 200 苹果 400 梨 300 梨 500 香蕉 300 您可以在时使用和时使用对隐藏的销售数量进行求和，否则： import pyspark.sql.functions as F result = salesDf.groupBy('itemName').agg( F.sum( F.when( F.col('sales_quantity') > 300, F.col('sal

这是我的起始数据帧：

salesDf

项目名称销售数量苹果 200 苹果 400 梨 300 梨 500 香蕉 300

您可以在时使用和时使用对隐藏的销售数量进行求和，否则：

import pyspark.sql.functions as F

result = salesDf.groupBy('itemName').agg(
    F.sum(
        F.when(
            F.col('sales_quantity') > 300, F.col('sales_quantity')
        ).otherwise(0)
   ).alias('sales_quantity')
)

result.show()
+--------+--------------+
|itemName|sales_quantity|
+--------+--------------+
|  Banana|             0|
|    Pear|           500|
|   Apple|           400|
+--------+--------------+

要添加新行，您可以执行一个

联合操作

：

result = salesDf.groupBy('itemName').agg(
    F.sum(
        F.when(
            F.col('sales_quantity') > 300, F.col('sales_quantity')
        ).otherwise(0)
   ).alias('sales_quantity')
).union(spark.sql("select 'Pineapple' , 0"))

对不起，翻译不好。。顺便说一下，我将插入一个新值，该值不存在于起始df中