Apache spark json/text格式的Apache Spark DAG可视化_Apache Spark_Bigdata_Yarn

Apache spark json/text格式的Apache Spark DAG可视化

apache-spark

Apache spark json/text格式的Apache Spark DAG可视化,apache-spark,bigdata,yarn,Apache Spark,Bigdata,Yarn,我正在研究优化一些相当大的ApacheSpark作业，并观察到在特定阶段进行DAG可视化非常复杂我无法理解向外的箭头指向何处，需要进行各种交叉和猜测/假设才能理解我可以下载DAG的文本/json格式吗？使用vim/text editor更容易分析？您的问题的一个答案是使用。explain操作符，它将逻辑和（启用扩展标志）物理计划打印到控制台 val records = spark. readStream. format("rate"). load scala> records

我正在研究优化一些相当大的ApacheSpark作业，并观察到在特定阶段进行DAG可视化非常复杂

我无法理解向外的箭头指向何处，需要进行各种交叉和猜测/假设才能理解

我可以下载DAG的文本/json格式吗？使用vim/text editor更容易分析？

您的问题的一个答案是使用

。explain

操作符，它将逻辑和（启用扩展标志）物理计划打印到控制台

 val records = spark.
 readStream.
 format("rate").
 load

scala> records.explain

== Physical Plan ==
StreamingRelation rate, [timestamp#0, value#1L]

scala> records.explain(extended = true)

== Parsed Logical Plan ==
StreamingRelation DataSource(org.apache.spark.sql.SparkSession@4071aa13,rate,List(),None,List(),None,Map(),None), rate, [timestamp#0, value#1L]

== Analyzed Logical Plan ==
timestamp: timestamp, value: bigint
StreamingRelation DataSource(org.apache.spark.sql.SparkSession@4071aa13,rate,List(),None,List(),None,Map(),None), rate, [timestamp#0, value#1L]

== Optimized Logical Plan ==
StreamingRelation DataSource(org.apache.spark.sql.SparkSession@4071aa13,rate,List(),None,List(),None,Map(),None), rate, [timestamp#0, value#1L]

== Physical Plan ==
StreamingRelation rate, [timestamp#0, value#1L]

物理计划是DAG的转换，因此可能对您有所帮助

此链接可能会有所帮助：