Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 在筛选和分组后显示所有起始的独立元素_Python_Apache Spark_Pyspark_Apache Spark Sql_Pyspark Dataframes - Fatal编程技术网

Python 在筛选和分组后显示所有起始的独立元素

Python 在筛选和分组后显示所有起始的独立元素,python,apache-spark,pyspark,apache-spark-sql,pyspark-dataframes,Python,Apache Spark,Pyspark,Apache Spark Sql,Pyspark Dataframes,这是我的起始数据帧: salesDf 项目名称 销售数量 苹果 200 苹果 400 梨 300 梨 500 香蕉 300 您可以在时使用和时使用对隐藏的销售数量进行求和,否则: import pyspark.sql.functions as F result = salesDf.groupBy('itemName').agg( F.sum( F.when( F.col('sales_quantity') > 300, F.col('sal

这是我的起始数据帧:

salesDf

项目名称 销售数量 苹果 200 苹果 400 梨 300 梨 500 香蕉 300
您可以在时使用和时使用对隐藏的销售数量进行求和,否则:

import pyspark.sql.functions as F

result = salesDf.groupBy('itemName').agg(
    F.sum(
        F.when(
            F.col('sales_quantity') > 300, F.col('sales_quantity')
        ).otherwise(0)
   ).alias('sales_quantity')
)

result.show()
+--------+--------------+
|itemName|sales_quantity|
+--------+--------------+
|  Banana|             0|
|    Pear|           500|
|   Apple|           400|
+--------+--------------+
要添加新行,您可以执行一个
联合操作

result = salesDf.groupBy('itemName').agg(
    F.sum(
        F.when(
            F.col('sales_quantity') > 300, F.col('sales_quantity')
        ).otherwise(0)
   ).alias('sales_quantity')
).union(spark.sql("select 'Pineapple' , 0"))

对不起,翻译不好。。顺便说一下,我将插入一个新值,该值不存在于起始df中