Pyspark 使用开始日期和结束日期按月份和日期分组_Pyspark

Pyspark 使用开始日期和结束日期按月份和日期分组

pyspark

Pyspark 使用开始日期和结束日期按月份和日期分组,pyspark,Pyspark,我有一个合同的数据框架：开始期、结束期、每月价格。我试图得到每个月的总收入当前数据帧： id start_period end_period montly_price 1 2019-01-01 2019-03-01 30 2 2019-01-01 2019-06-01 20 3 2019-07-01 2020-08-01 10 4 2019-07-01 2020-08-

我有一个合同的数据框架：开始期、结束期、每月价格。我试图得到每个月的总收入

当前数据帧：

id      start_period   end_period     montly_price
1       2019-01-01     2019-03-01     30
2       2019-01-01     2019-06-01     20
3       2019-07-01     2020-08-01     10
4       2019-07-01     2020-08-01     10

预期产出：

period          revenue_per_month_all_ids
2019-01         50
2019-02         50
2019-04         20
2019-05         20
2019-06         0
2019-07         20

假设您没有合同的

start\u period

和

end\u period

具有不同的月份（如果是这种情况，您希望如何继续？您可以编辑您的问题或评论此帖子吗？）


将pyspark.sql.functions作为psf导入
df.WITH列（“月”，psf.MOUNT（“起始期”）
.groupBy（“期间”）
.agg（psf.sum（“每月价格”）.alias（“每月收入”\u“所有ID”））

假设您没有合同的

开始期

和

结束期

有不同的月份（如果是这种情况，您希望如何继续？您可以编辑您的问题或评论此帖子吗？）


将pyspark.sql.functions作为psf导入
df.WITH列（“月”，psf.MOUNT（“起始期”）
.groupBy（“期间”）
.agg（psf.sum（“每月价格”）.alias（“每月收入”\u“所有ID”））