Performance ApacheSpark2.4:为什么会有;没有广播;?

Performance ApacheSpark2.4:为什么会有;没有广播;?,performance,apache-spark,bigdata,broadcast,Performance,Apache Spark,Bigdata,Broadcast,我已将spark提交配置为 “--conf”, “spark.sql.autoBroadcastJoinThreshold=536870912”,512MB 但DAG仍然没有广播联合的较小部分 代码是一个简单的连接。所以我想知道怎么了 输入是拼花地板的文件,存储在S3上 如果需要更多信息进行进一步分析,请告诉我 我猜spark.sql.autoBroadcastJoinThreshold配置在某个地方被覆盖或设置不正确。您应该在Spark UI中检查环境选项卡(如果找到),并检查其设置是否正确。

我已将spark提交配置为

“--conf”, “spark.sql.autoBroadcastJoinThreshold=536870912”,512MB

但DAG仍然没有广播联合的较小部分

代码是一个简单的连接。所以我想知道怎么了

输入是拼花地板的文件,存储在S3上

如果需要更多信息进行进一步分析,请告诉我


我猜spark.sql.autoBroadcastJoinThreshold配置在某个地方被覆盖或设置不正确。您应该在Spark UI中检查环境选项卡(如果找到),并检查其设置是否正确。
如果您只需要快速修复,您还可以使用提示强制广播。您已经知道的数据集上的广播很小。

根据本博客

完全外部联接不支持BHJ。对于右外部联接,只能广播左侧表,对于其他左联接,只能广播右侧表


这就是广播没有发生的原因。

我在Spark UI->Environment中进行了检查,发现Spark.sql.autoBroadcastJoinThreshold 536870912,所以我认为配置还可以。我无法强制广播,因为每一方都将根据输入进行评估。也就是说,我更喜欢设置阈值,让spark来做决定。你能分享一下你的集群特征吗?@Carlosdavipeña我在问题中添加了配置。但是我想我知道原因。我想你忘了包括博客链接。