Performance 使用加入多个df时出现性能问题_Performance_Join_Pyspark_Pyspark Dataframes

Performance 使用加入多个df时出现性能问题

performance join pyspark

Performance 使用加入多个df时出现性能问题,performance,join,pyspark,pyspark-dataframes,Performance,Join,Pyspark,Pyspark Dataframes,我有一段代码，它尝试与多个数据帧进行左连接，因为从每个数据帧生成的属性将被放置在我试图编写的最终json文件中的不同位置。此外，代码还会随着新元素的添加而增长。使用当前的方法，代码花费了将近3-4个小时，最后由于性能问题而中止。解决此性能问题的更好方法是什么？ Lkp_df1 lkd_df2等 Main_df=Main_df.join（键，'left'） .选择（…）是我在代码中的模式请粘贴整个代码。尝试使用persist或checkpoint，并检查分区的数量和集群中的数据分布。好的，粘贴

我有一段代码，它尝试与多个数据帧进行左连接，因为从每个数据帧生成的属性将被放置在我试图编写的最终json文件中的不同位置。此外，代码还会随着新元素的添加而增长。使用当前的方法，代码花费了将近3-4个小时，最后由于性能问题而中止。解决此性能问题的更好方法是什么？ Lkp_df1 lkd_df2等 Main_df=Main_df.join（键，'left'） .选择（…）

是我在代码中的模式

请粘贴整个代码。尝试使用persist或checkpoint，并检查分区的数量和集群中的数据分布。好的，粘贴在这里的代码非常大，但基本上遵循了我上面所说的，它有多个数据帧。它通过左连接与主框架连接，并添加到主框架。除了join操作符之外，还有其他方法可以实现这一点吗？如果没有，代码优化的方法是什么。