Pyspark 多表联接Pypark复杂查询

Pyspark 多表联接Pypark复杂查询,pyspark,Pyspark,我一直在pyspark中制定多表联接查询。 我有三张桌子 表1:Prod_store-此表显示了产品在哪些商店发布 表2:新产品信息-此表显示有关新产品发布周信息的信息 表3:客户支出信息-此表显示了客户在商店每周不同产品上的支出 我需要制定一个查询,该查询应该给出 有人能帮我吗。我已经使用函数完成了这项工作,但为此我必须在产品上循环,这需要时间。 以下是我使用的函数: def cat_cust_13(st_wk_13,en_wk_13,period,store_prod,categor

我一直在pyspark中制定多表联接查询。 我有三张桌子

表1:Prod_store-此表显示了产品在哪些商店发布

表2:新产品信息-此表显示有关新产品发布周信息的信息

表3:客户支出信息-此表显示了客户在商店每周不同产品上的支出

我需要制定一个查询,该查询应该给出

有人能帮我吗。我已经使用函数完成了这项工作,但为此我必须在产品上循环,这需要时间。 以下是我使用的函数:

def cat_cust_13(st_wk_13,en_wk_13,period,store_prod,category):
df = df_category_customer.join(store_prod,'store_code','inner').filter(
                                    (F.col('fis_week_id').between(st_wk_13,en_wk_13)&(F.col('category')==category))                                        
                                 )\
                        .groupby\
                    (['category','region','card_id'])\
                    .agg(F.sum('sales').alias(period+'_sales'),F.sum('volume').alias(period+'_vol'))
return (df)
但我需要在PySpark查询中转换它。谢谢