Python 探索Spark执行计划、阶段数等
我需要优化我的pyspark代码,以便有一个尽可能并行的执行计划;我想知道是否有比.explain方法(不可读)更好的方法来探索DAG,就像“普通”图形对象一样 例如,了解阶段总数、DAG的“一级节点”数量等非常有用。Python 探索Spark执行计划、阶段数等,python,apache-spark,directed-acyclic-graphs,explain,Python,Apache Spark,Directed Acyclic Graphs,Explain,我需要优化我的pyspark代码,以便有一个尽可能并行的执行计划;我想知道是否有比.explain方法(不可读)更好的方法来探索DAG,就像“普通”图形对象一样 例如,了解阶段总数、DAG的“一级节点”数量等非常有用。 谢谢。您可以通过添加“True”从catalyst optimizer获得更详细的解释计划。。也许这就是你要找的 df = spark.range(10) df.explain(True) ...output... == Parsed Logical Plan == Range
谢谢。您可以通过添加“True”从catalyst optimizer获得更详细的解释计划。。也许这就是你要找的
df = spark.range(10)
df.explain(True)
...output...
== Parsed Logical Plan ==
Range (0, 10, step=1, splits=Some(8))
== Analyzed Logical Plan ==
id: bigint
Range (0, 10, step=1, splits=Some(8))
== Optimized Logical Plan ==
Range (0, 10, step=1, splits=Some(8))
== Physical Plan ==
*(1) Range (0, 10, step=1, splits=8)
更详细地说,您还可以访问Spark UI,它提供了作业、阶段、任务、缓存对象、执行器分布和环境变量的DAG可视化和分解。。。您可以通过url“驱动程序节点\u主机:4040”访问它,这是默认端口。。。此处的文档用于其他配置=>