Apache spark 如果内存不是',广播数据帧是否会将数据溢出到磁盘;无法保存数据?
我有一个关于星火广播的问题。 默认情况下,广播哈希连接大小为10MB 案例1:集群中有足够的内存来保存广播DF。 如果DF大小大于默认的广播连接大小,比如说15 MB是DF大小,并且如果我在集群中的所有节点上广播此DF,它还会执行广播连接吗? 由于15MB大于默认的广播连接大小,即使我们广播了DF,它是否也会用于任何其他连接 情况2:集群内存不足,无法容纳广播的DF。 因此,让我们假设,如果我有15MB的数据帧,并且如果我想在连接期间广播此数据帧,那么内存在一个或几个节点上不可用,无法保存此数据。(15MB是一个假设数字)Apache spark 如果内存不是',广播数据帧是否会将数据溢出到磁盘;无法保存数据?,apache-spark,Apache Spark,我有一个关于星火广播的问题。 默认情况下,广播哈希连接大小为10MB 案例1:集群中有足够的内存来保存广播DF。 如果DF大小大于默认的广播连接大小,比如说15 MB是DF大小,并且如果我在集群中的所有节点上广播此DF,它还会执行广播连接吗? 由于15MB大于默认的广播连接大小,即使我们广播了DF,它是否也会用于任何其他连接 情况2:集群内存不足,无法容纳广播的DF。 因此,让我们假设,如果我有15MB的数据帧,并且如果我想在连接期间广播此数据帧,那么内存在一个或几个节点上不可用,无法保存此数据
它会因内存不足错误而失败,还是会将数据溢出到磁盘?如果您试图广播大于spark.sql.autoBroadcastJoinThreshold的数据帧,spark将发出错误 我不能用官方文件来备份,但我认为不会有泄漏到磁盘上。您需要确保驱动程序和工作程序都可以容纳完整的数据帧