Python 在筛选和分组后显示所有起始的独立元素
这是我的起始数据帧: salesDf 项目名称 销售数量 苹果 200 苹果 400 梨 300 梨 500 香蕉 300Python 在筛选和分组后显示所有起始的独立元素,python,apache-spark,pyspark,apache-spark-sql,pyspark-dataframes,Python,Apache Spark,Pyspark,Apache Spark Sql,Pyspark Dataframes,这是我的起始数据帧: salesDf 项目名称 销售数量 苹果 200 苹果 400 梨 300 梨 500 香蕉 300 您可以在时使用和时使用对隐藏的销售数量进行求和,否则: import pyspark.sql.functions as F result = salesDf.groupBy('itemName').agg( F.sum( F.when( F.col('sales_quantity') > 300, F.col('sal
您可以在时使用和时使用对隐藏的销售数量进行求和,否则:
import pyspark.sql.functions as F
result = salesDf.groupBy('itemName').agg(
F.sum(
F.when(
F.col('sales_quantity') > 300, F.col('sales_quantity')
).otherwise(0)
).alias('sales_quantity')
)
result.show()
+--------+--------------+
|itemName|sales_quantity|
+--------+--------------+
| Banana| 0|
| Pear| 500|
| Apple| 400|
+--------+--------------+
要添加新行,您可以执行一个联合操作
:
result = salesDf.groupBy('itemName').agg(
F.sum(
F.when(
F.col('sales_quantity') > 300, F.col('sales_quantity')
).otherwise(0)
).alias('sales_quantity')
).union(spark.sql("select 'Pineapple' , 0"))
对不起,翻译不好。。顺便说一下,我将插入一个新值,该值不存在于起始df中