Apache spark 在分区或多个分区中缓存数据帧是否更有效_Apache Spark_Caching

Apache spark 在分区或多个分区中缓存数据帧是否更有效

apache-spark caching

Apache spark 在分区或多个分区中缓存数据帧是否更有效,apache-spark,caching,Apache Spark,Caching,我正在持久化一个数据帧，在spark接口中，我看到这个数据帧在我的7个节点中被分区我的spark工作具有广泛依赖性的转换。只在一个分区中强制缓存会更有效吗？为了避免混乱谢谢在分区数量和并发性之间有一个平衡。我敢说，你在这里有点不对劲。意思是：太多的分区毫无意义-->太多的开销只有一个分区意味着合并或重新分区，并且缺少Spark提供的并行处理来更快地完成工作，例如，并行装载超市货架的许多工人比只有你和我自己来做要快事实是，在规模上需要估计和测试的分区数量介于两者之间，除非您将从HD

我正在持久化一个数据帧，在spark接口中，我看到这个数据帧在我的7个节点中被分区

我的spark工作具有广泛依赖性的转换。只在一个分区中强制缓存会更有效吗？为了避免混乱

谢谢

在分区数量和并发性之间有一个平衡。我敢说，你在这里有点不对劲。意思是：

太多的分区毫无意义-->太多的开销
只有一个分区意味着合并或重新分区，并且缺少Spark提供的并行处理来更快地完成工作，例如，并行装载超市货架的许多工人比只有你和我自己来做要快
事实是，在规模上需要估计和测试的分区数量介于两者之间，除非您将从HDFS/Hadoop源（例如KUDU）或S3或JDBC读取的分区作为基础，否则很难避免洗牌

您能接受答案吗？