Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 在分区或多个分区中缓存数据帧是否更有效_Apache Spark_Caching - Fatal编程技术网

Apache spark 在分区或多个分区中缓存数据帧是否更有效

Apache spark 在分区或多个分区中缓存数据帧是否更有效,apache-spark,caching,Apache Spark,Caching,我正在持久化一个数据帧,在spark接口中,我看到这个数据帧在我的7个节点中被分区 我的spark工作具有广泛依赖性的转换。 只在一个分区中强制缓存会更有效吗? 为了避免混乱 谢谢在分区数量和并发性之间有一个平衡。我敢说,你在这里有点不对劲。意思是: 太多的分区毫无意义-->太多的开销 只有一个分区意味着合并或重新分区,并且缺少Spark提供的并行处理来更快地完成工作,例如,并行装载超市货架的许多工人比只有你和我自己来做要快 事实是,在规模上需要估计和测试的分区数量介于两者之间,除非您将从HD

我正在持久化一个数据帧,在spark接口中,我看到这个数据帧在我的7个节点中被分区

我的spark工作具有广泛依赖性的转换。 只在一个分区中强制缓存会更有效吗? 为了避免混乱


谢谢

在分区数量和并发性之间有一个平衡。我敢说,你在这里有点不对劲。意思是:

  • 太多的分区毫无意义-->太多的开销

  • 只有一个分区意味着合并或重新分区,并且缺少Spark提供的并行处理来更快地完成工作,例如,并行装载超市货架的许多工人比只有你和我自己来做要快

  • 事实是,在规模上需要估计和测试的分区数量介于两者之间,除非您将从HDFS/Hadoop源(例如KUDU)或S3或JDBC读取的分区作为基础,否则很难避免洗牌


您能接受答案吗?