Apache spark json/text格式的Apache Spark DAG可视化

Apache spark json/text格式的Apache Spark DAG可视化,apache-spark,bigdata,yarn,Apache Spark,Bigdata,Yarn,我正在研究优化一些相当大的ApacheSpark作业,并观察到在特定阶段进行DAG可视化非常复杂 我无法理解向外的箭头指向何处,需要进行各种交叉和猜测/假设才能理解 我可以下载DAG的文本/json格式吗?使用vim/text editor更容易分析?您的问题的一个答案是使用。explain操作符,它将逻辑和(启用扩展标志)物理计划打印到控制台 val records = spark. readStream. format("rate"). load scala> records

我正在研究优化一些相当大的ApacheSpark作业,并观察到在特定阶段进行DAG可视化非常复杂

我无法理解向外的箭头指向何处,需要进行各种交叉和猜测/假设才能理解


我可以下载DAG的文本/json格式吗?使用vim/text editor更容易分析?

您的问题的一个答案是使用
。explain
操作符,它将逻辑和(启用扩展标志)物理计划打印到控制台

 val records = spark.
 readStream.
 format("rate").
 load

scala> records.explain

== Physical Plan ==
StreamingRelation rate, [timestamp#0, value#1L]

scala> records.explain(extended = true)

== Parsed Logical Plan ==
StreamingRelation DataSource(org.apache.spark.sql.SparkSession@4071aa13,rate,List(),None,List(),None,Map(),None), rate, [timestamp#0, value#1L]

== Analyzed Logical Plan ==
timestamp: timestamp, value: bigint
StreamingRelation DataSource(org.apache.spark.sql.SparkSession@4071aa13,rate,List(),None,List(),None,Map(),None), rate, [timestamp#0, value#1L]

== Optimized Logical Plan ==
StreamingRelation DataSource(org.apache.spark.sql.SparkSession@4071aa13,rate,List(),None,List(),None,Map(),None), rate, [timestamp#0, value#1L]

== Physical Plan ==
StreamingRelation rate, [timestamp#0, value#1L]
物理计划是DAG的转换,因此可能对您有所帮助

此链接可能会有所帮助: