Pyspark 使用开始日期和结束日期按月份和日期分组
我有一个合同的数据框架:开始期、结束期、每月价格。我试图得到每个月的总收入 当前数据帧:Pyspark 使用开始日期和结束日期按月份和日期分组,pyspark,Pyspark,我有一个合同的数据框架:开始期、结束期、每月价格。我试图得到每个月的总收入 当前数据帧: id start_period end_period montly_price 1 2019-01-01 2019-03-01 30 2 2019-01-01 2019-06-01 20 3 2019-07-01 2020-08-01 10 4 2019-07-01 2020-08-
id start_period end_period montly_price
1 2019-01-01 2019-03-01 30
2 2019-01-01 2019-06-01 20
3 2019-07-01 2020-08-01 10
4 2019-07-01 2020-08-01 10
预期产出:
period revenue_per_month_all_ids
2019-01 50
2019-02 50
2019-04 20
2019-05 20
2019-06 0
2019-07 20
假设您没有合同的
start\u period
和end\u period
具有不同的月份(如果是这种情况,您希望如何继续?您可以编辑您的问题或评论此帖子吗?)
将pyspark.sql.functions作为psf导入
df.WITH列(“月”,psf.MOUNT(“起始期”)
.groupBy(“期间”)
.agg(psf.sum(“每月价格”).alias(“每月收入”\u“所有ID”))
假设您没有合同的开始期
和结束期
有不同的月份(如果是这种情况,您希望如何继续?您可以编辑您的问题或评论此帖子吗?)
将pyspark.sql.functions作为psf导入
df.WITH列(“月”,psf.MOUNT(“起始期”)
.groupBy(“期间”)
.agg(psf.sum(“每月价格”).alias(“每月收入”\u“所有ID”))