Apache spark 在pyspark中,从impala/hive读取数据后,数据是如何分区的?
在读取数据之后,我想确保我关于分区的假设是正确的 默认情况下,集群中的RDD有200个分区 我使用以下方法从Impala中读取数据,超过400万行(本例中为400万行):Apache spark 在pyspark中,从impala/hive读取数据后,数据是如何分区的?,apache-spark,Apache Spark,在读取数据之后,我想确保我关于分区的假设是正确的 默认情况下,集群中的RDD有200个分区 我使用以下方法从Impala中读取数据,超过400万行(本例中为400万行): data = spark.sql("select cols from table") 数据将正确地分布在分区中吗 默认情况下有200个分区和400000行,每个分区是否会精确地包含20000行,或者是否有可能/原因导致某些分区无法获得此数量的行
data = spark.sql("select cols from table")
数据将正确地分布在分区中吗
默认情况下有200个分区和400000行,每个分区是否会精确地包含20000行,或者是否有可能/原因导致某些分区无法获得此数量的行