Performance 使用加入多个df时出现性能问题

Performance 使用加入多个df时出现性能问题,performance,join,pyspark,pyspark-dataframes,Performance,Join,Pyspark,Pyspark Dataframes,我有一段代码,它尝试与多个数据帧进行左连接,因为从每个数据帧生成的属性将被放置在我试图编写的最终json文件中的不同位置。此外,代码还会随着新元素的添加而增长。使用当前的方法,代码花费了将近3-4个小时,最后由于性能问题而中止。 解决此性能问题的更好方法是什么? Lkp_df1 lkd_df2等 Main_df=Main_df.join(键,'left') .选择(…) 是我在代码中的模式请粘贴整个代码。尝试使用persist或checkpoint,并检查分区的数量和集群中的数据分布。好的,粘贴

我有一段代码,它尝试与多个数据帧进行左连接,因为从每个数据帧生成的属性将被放置在我试图编写的最终json文件中的不同位置。此外,代码还会随着新元素的添加而增长。使用当前的方法,代码花费了将近3-4个小时,最后由于性能问题而中止。 解决此性能问题的更好方法是什么? Lkp_df1 lkd_df2等 Main_df=Main_df.join(键,'left') .选择(…)
是我在代码中的模式

请粘贴整个代码。尝试使用persist或checkpoint,并检查分区的数量和集群中的数据分布。好的,粘贴在这里的代码非常大,但基本上遵循了我上面所说的,它有多个数据帧。它通过左连接与主框架连接,并添加到主框架。除了join操作符之外,还有其他方法可以实现这一点吗?如果没有,代码优化的方法是什么。