Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 在pyspark中,从impala/hive读取数据后,数据是如何分区的?_Apache Spark - Fatal编程技术网

Apache spark 在pyspark中,从impala/hive读取数据后,数据是如何分区的?

Apache spark 在pyspark中,从impala/hive读取数据后,数据是如何分区的?,apache-spark,Apache Spark,在读取数据之后,我想确保我关于分区的假设是正确的 默认情况下,集群中的RDD有200个分区 我使用以下方法从Impala中读取数据,超过400万行(本例中为400万行): data = spark.sql("select cols from table") 数据将正确地分布在分区中吗 默认情况下有200个分区和400000行,每个分区是否会精确地包含20000行,或者是否有可能/原因导致某些分区无法获得此数量的行

在读取数据之后,我想确保我关于分区的假设是正确的

默认情况下,集群中的RDD有200个分区

我使用以下方法从Impala中读取数据,超过400万行(本例中为400万行):

data = spark.sql("select cols from table")
数据将正确地分布在分区中吗

默认情况下有200个分区和400000行,每个分区是否会精确地包含20000行,或者是否有可能/原因导致某些分区无法获得此数量的行