Apache spark 在分区或多个分区中缓存数据帧是否更有效
我正在持久化一个数据帧,在spark接口中,我看到这个数据帧在我的7个节点中被分区 我的spark工作具有广泛依赖性的转换。 只在一个分区中强制缓存会更有效吗? 为了避免混乱Apache spark 在分区或多个分区中缓存数据帧是否更有效,apache-spark,caching,Apache Spark,Caching,我正在持久化一个数据帧,在spark接口中,我看到这个数据帧在我的7个节点中被分区 我的spark工作具有广泛依赖性的转换。 只在一个分区中强制缓存会更有效吗? 为了避免混乱 谢谢在分区数量和并发性之间有一个平衡。我敢说,你在这里有点不对劲。意思是: 太多的分区毫无意义-->太多的开销 只有一个分区意味着合并或重新分区,并且缺少Spark提供的并行处理来更快地完成工作,例如,并行装载超市货架的许多工人比只有你和我自己来做要快 事实是,在规模上需要估计和测试的分区数量介于两者之间,除非您将从HD
谢谢在分区数量和并发性之间有一个平衡。我敢说,你在这里有点不对劲。意思是:
- 太多的分区毫无意义-->太多的开销
- 只有一个分区意味着合并或重新分区,并且缺少Spark提供的并行处理来更快地完成工作,例如,并行装载超市货架的许多工人比只有你和我自己来做要快
- 事实是,在规模上需要估计和测试的分区数量介于两者之间,除非您将从HDFS/Hadoop源(例如KUDU)或S3或JDBC读取的分区作为基础,否则很难避免洗牌