Pyspark 在数据帧中重新分区时,我们应该根据什么选择分区数?

Pyspark 在数据帧中重新分区时,我们应该根据什么选择分区数?,pyspark,apache-spark-sql,Pyspark,Apache Spark Sql,在基于内存核心对数据帧重新分区时,我们应该根据什么来决定分区的数量?值应基于可用核心数或可用核心数的倍数?经验法则是查看输入文件,并将其除以250到300。。这将为您提供数据流上的分区数经验法则是查看输入文件并将其除以250到300。。这将为您提供DF上的#个分区

在基于内存核心对数据帧重新分区时,我们应该根据什么来决定分区的数量?值应基于可用核心数或可用核心数的倍数?

经验法则是查看输入文件,并将其除以250到300。。这将为您提供数据流上的分区数经验法则是查看输入文件并将其除以250到300。。这将为您提供DF上的#个分区