Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 如果内存不是',广播数据帧是否会将数据溢出到磁盘;无法保存数据?_Apache Spark - Fatal编程技术网

Apache spark 如果内存不是',广播数据帧是否会将数据溢出到磁盘;无法保存数据?

Apache spark 如果内存不是',广播数据帧是否会将数据溢出到磁盘;无法保存数据?,apache-spark,Apache Spark,我有一个关于星火广播的问题。 默认情况下,广播哈希连接大小为10MB 案例1:集群中有足够的内存来保存广播DF。 如果DF大小大于默认的广播连接大小,比如说15 MB是DF大小,并且如果我在集群中的所有节点上广播此DF,它还会执行广播连接吗? 由于15MB大于默认的广播连接大小,即使我们广播了DF,它是否也会用于任何其他连接 情况2:集群内存不足,无法容纳广播的DF。 因此,让我们假设,如果我有15MB的数据帧,并且如果我想在连接期间广播此数据帧,那么内存在一个或几个节点上不可用,无法保存此数据

我有一个关于星火广播的问题。 默认情况下,广播哈希连接大小为10MB

案例1:集群中有足够的内存来保存广播DF。

如果DF大小大于默认的广播连接大小,比如说15 MB是DF大小,并且如果我在集群中的所有节点上广播此DF,它还会执行广播连接吗? 由于15MB大于默认的广播连接大小,即使我们广播了DF,它是否也会用于任何其他连接

情况2:集群内存不足,无法容纳广播的DF。

因此,让我们假设,如果我有15MB的数据帧,并且如果我想在连接期间广播此数据帧,那么内存在一个或几个节点上不可用,无法保存此数据。(15MB是一个假设数字)
它会因内存不足错误而失败,还是会将数据溢出到磁盘?

如果您试图广播大于spark.sql.autoBroadcastJoinThreshold的数据帧,spark将发出错误

我不能用官方文件来备份,但我认为不会有泄漏到磁盘上。您需要确保驱动程序和工作程序都可以容纳完整的数据帧