Apache spark 在pyspark中，从impala/hive读取数据后，数据是如何分区的？_Apache Spark

Apache spark 在pyspark中，从impala/hive读取数据后，数据是如何分区的？

apache-spark

Apache spark 在pyspark中，从impala/hive读取数据后，数据是如何分区的？,apache-spark,Apache Spark,在读取数据之后，我想确保我关于分区的假设是正确的默认情况下，集群中的RDD有200个分区我使用以下方法从Impala中读取数据，超过400万行（本例中为400万行）： data = spark.sql("select cols from table") 数据将正确地分布在分区中吗默认情况下有200个分区和400000行，每个分区是否会精确地包含20000行，或者是否有可能/原因导致某些分区无法获得此数量的行

在读取数据之后，我想确保我关于分区的假设是正确的

默认情况下，集群中的RDD有200个分区

我使用以下方法从Impala中读取数据，超过400万行（本例中为400万行）：

data = spark.sql("select cols from table")

数据将正确地分布在分区中吗

默认情况下有200个分区和400000行，每个分区是否会精确地包含20000行，或者是否有可能/原因导致某些分区无法获得此数量的行