Apache spark spark stage DAG可视化UI中的蓝色块是什么意思?

Apache spark spark stage DAG可视化UI中的蓝色块是什么意思?,apache-spark,Apache Spark,在下面应用程序UI的剪贴画中,每个阶段中的蓝色块代表什么 “交换”和“批发”等是什么意思 我在哪里可以找到资源来解释spark在这里做什么 非常感谢 每个蓝色框都是Apache Spark作业的步骤 您正在询问的是批发网站这些东西是: 全阶段代码生成(也称为批发性tagecodegen或批发性tagecodegenexec)将多个操作符(作为支持codegen的计划的子树)融合到一个Java函数中,该函数旨在提高执行性能。它将查询压缩为单个优化函数,从而消除虚拟函数调用,并利用CPU寄存器来处理

在下面应用程序UI的剪贴画中,每个阶段中的蓝色块代表什么

“交换”和“批发”等是什么意思

我在哪里可以找到资源来解释spark在这里做什么

非常感谢


每个蓝色框都是Apache Spark作业的步骤

您正在询问的是
批发网站
这些东西是:

全阶段代码生成(也称为批发性tagecodegen或批发性tagecodegenexec)将多个操作符(作为支持codegen的计划的子树)融合到一个Java函数中,该函数旨在提高执行性能。它将查询压缩为单个优化函数,从而消除虚拟函数调用,并利用CPU寄存器来处理中间数据

你可以在这里看到细节

交换是指作业之间更详细的随机交换:

ShuffleExchange是一种一元物理运算符。它对应于Repartition(启用洗牌)和RepartitionByExpression逻辑运算符(在BasicOperators策略中翻译)

使用
explain

每一步都向您展示了数据帧将要做什么,这有助于发现您的逻辑是否正确。如果您想了解有关Spark UI的更多详细信息,我建议您查看Spark Summit的演示文稿,并阅读有关执行计划的文章


这些信息将向您展示更多关于您的疑问。

您能提供创建此图表的原因吗?解释命令对于检查spark所做的优化非常有用。spark summit演示文稿将引导到网站的主页。哇!他们改变了联系。谢谢@FlorianCastelain我会更新的