Apache spark Spark SQL（通过HiveContext进行配置单元查询）始终创建31个分区_Apache Spark_Apache Spark Sql_Hivecontext

Apache spark Spark SQL（通过HiveContext进行配置单元查询）始终创建31个分区

apache-spark

Apache spark Spark SQL（通过HiveContext进行配置单元查询）始终创建31个分区,apache-spark,apache-spark-sql,hivecontext,Apache Spark,Apache Spark Sql,Hivecontext,我正在使用Spark代码中的HiveContext运行配置单元查询。无论我运行哪个查询以及它有多少数据，它都会生成31个分区。有人知道原因吗？是否有预定义/可配置的设置？我需要更多的分区我使用此代码段执行配置单元查询： var pairedRDD=hqlContext.sql（hql）.rdd.map（…）我正在使用Spark 1.3.1 谢谢， NitinRDD中的分区数与其所依赖的RDD中的分区数相同，但有两个例外：合并转换允许创建分区数少于其父RDD的RDD，联合转换使用其父RDD的分

我正在使用Spark代码中的HiveContext运行配置单元查询。无论我运行哪个查询以及它有多少数据，它都会生成31个分区。有人知道原因吗？是否有预定义/可配置的设置？我需要更多的分区

我使用此代码段执行配置单元查询：

var pairedRDD=hqlContext.sql（hql）.rdd.map（…）

我正在使用Spark 1.3.1

谢谢，

Nitin

RDD中的分区数与其所依赖的RDD中的分区数相同，但有两个例外：合并转换允许创建分区数少于其父RDD的RDD，联合转换使用其父RDD的分区数之和创建RDD，笛卡尔用他们的产品创建了一个RDD。增加分区的数量

使用重新分区转换，这将触发洗牌
配置InputFormat以创建更多拆分
将输入数据以较小的块大小写入HDFS

此链接很好地解释了如何定义分区数以及如何增加分区数。

RDD中的分区数与其所依赖的RDD中的分区数相同，除了几个例外：合并转换允许创建一个RDD，其分区数少于其父RDD，联合转换使用其父RDD的分区数之和创建一个RDD，笛卡尔转换使用其乘积创建一个RDD。增加分区的数量

使用重新分区转换，这将触发洗牌
配置InputFormat以创建更多拆分
将输入数据以较小的块大小写入HDFS

这个链接很好地解释了如何定义分区数以及如何增加分区数