Pyspark 使用开始日期和结束日期按月份和日期分组

Pyspark 使用开始日期和结束日期按月份和日期分组,pyspark,Pyspark,我有一个合同的数据框架:开始期、结束期、每月价格。我试图得到每个月的总收入 当前数据帧: id start_period end_period montly_price 1 2019-01-01 2019-03-01 30 2 2019-01-01 2019-06-01 20 3 2019-07-01 2020-08-01 10 4 2019-07-01 2020-08-

我有一个合同的数据框架:开始期、结束期、每月价格。我试图得到每个月的总收入

当前数据帧:

id      start_period   end_period     montly_price
1       2019-01-01     2019-03-01     30
2       2019-01-01     2019-06-01     20
3       2019-07-01     2020-08-01     10
4       2019-07-01     2020-08-01     10
预期产出:

period          revenue_per_month_all_ids
2019-01         50
2019-02         50
2019-04         20
2019-05         20
2019-06         0
2019-07         20

假设您没有合同的
start\u period
end\u period
具有不同的月份(如果是这种情况,您希望如何继续?您可以编辑您的问题或评论此帖子吗?)


将pyspark.sql.functions作为psf导入
df.WITH列(“月”,psf.MOUNT(“起始期”)
.groupBy(“期间”)
.agg(psf.sum(“每月价格”).alias(“每月收入”\u“所有ID”))

假设您没有合同的
开始期
结束期
有不同的月份(如果是这种情况,您希望如何继续?您可以编辑您的问题或评论此帖子吗?)


将pyspark.sql.functions作为psf导入
df.WITH列(“月”,psf.MOUNT(“起始期”)
.groupBy(“期间”)
.agg(psf.sum(“每月价格”).alias(“每月收入”\u“所有ID”))