Pyspark 多表联接Pypark复杂查询
我一直在pyspark中制定多表联接查询。 我有三张桌子 表1:Prod_store-此表显示了产品在哪些商店发布 表2:新产品信息-此表显示有关新产品发布周信息的信息 表3:客户支出信息-此表显示了客户在商店每周不同产品上的支出 我需要制定一个查询,该查询应该给出 有人能帮我吗。我已经使用函数完成了这项工作,但为此我必须在产品上循环,这需要时间。 以下是我使用的函数:Pyspark 多表联接Pypark复杂查询,pyspark,Pyspark,我一直在pyspark中制定多表联接查询。 我有三张桌子 表1:Prod_store-此表显示了产品在哪些商店发布 表2:新产品信息-此表显示有关新产品发布周信息的信息 表3:客户支出信息-此表显示了客户在商店每周不同产品上的支出 我需要制定一个查询,该查询应该给出 有人能帮我吗。我已经使用函数完成了这项工作,但为此我必须在产品上循环,这需要时间。 以下是我使用的函数: def cat_cust_13(st_wk_13,en_wk_13,period,store_prod,categor
def cat_cust_13(st_wk_13,en_wk_13,period,store_prod,category):
df = df_category_customer.join(store_prod,'store_code','inner').filter(
(F.col('fis_week_id').between(st_wk_13,en_wk_13)&(F.col('category')==category))
)\
.groupby\
(['category','region','card_id'])\
.agg(F.sum('sales').alias(period+'_sales'),F.sum('volume').alias(period+'_vol'))
return (df)
但我需要在PySpark查询中转换它。谢谢