Apache spark spark.sql.autoBroadcastJoinThreshold中的键入错误。。。?

Apache spark spark.sql.autoBroadcastJoinThreshold中的键入错误。。。?,apache-spark,Apache Spark,我可能在Spark版本3.1.1中发现了一个打字错误。我是 使用Scala版本2.12.10(OpenJDK 64位服务器虚拟机,Java 11.0.11) 但可能是:104857600 因此: scala> spark.conf.set("spark.sql.autoBroadcastJoinThreshold", 104857600) 使用“10485760b”部署时,Spark无法检测到其中一个连接的数据帧较小(默认为10 MB)。可以禁用自动广播加入检测的阈值

我可能在Spark版本3.1.1中发现了一个打字错误。我是 使用Scala版本2.12.10(OpenJDK 64位服务器虚拟机,Java 11.0.11)

但可能是:104857600

因此:

scala> spark.conf.set("spark.sql.autoBroadcastJoinThreshold", 104857600)

使用“10485760b”部署时,Spark无法检测到其中一个连接的数据帧较小(默认为10 MB)。可以禁用自动广播加入检测的阈值。我希望我的评论能帮助别人?

这不是打字错误,而是正确的值

根据Spark配置文档,
autoBroadcastJoinThreshold
的默认值为10MB,定义为

“为将在执行联接时广播到所有工作节点的表配置最大大小(以字节为单位)。”

您建议的
104857600
值将导致
104857600/1024/1024=100MB
,这可能会对应用程序性能的健康造成损害

此外,在文件末尾,它解释了“b”代表什么:

scala> spark.conf.set("spark.sql.autoBroadcastJoinThreshold", 104857600)