Apache spark Spark SQL(通过HiveContext进行配置单元查询)始终创建31个分区

Apache spark Spark SQL(通过HiveContext进行配置单元查询)始终创建31个分区,apache-spark,apache-spark-sql,hivecontext,Apache Spark,Apache Spark Sql,Hivecontext,我正在使用Spark代码中的HiveContext运行配置单元查询。无论我运行哪个查询以及它有多少数据,它都会生成31个分区。有人知道原因吗?是否有预定义/可配置的设置?我需要更多的分区 我使用此代码段执行配置单元查询: var pairedRDD=hqlContext.sql(hql).rdd.map(…) 我正在使用Spark 1.3.1 谢谢, NitinRDD中的分区数与其所依赖的RDD中的分区数相同,但有两个例外:合并转换允许创建分区数少于其父RDD的RDD,联合转换使用其父RDD的分

我正在使用Spark代码中的HiveContext运行配置单元查询。无论我运行哪个查询以及它有多少数据,它都会生成31个分区。有人知道原因吗?是否有预定义/可配置的设置?我需要更多的分区

我使用此代码段执行配置单元查询:

var pairedRDD=hqlContext.sql(hql).rdd.map(…)

我正在使用Spark 1.3.1

谢谢,
Nitin

RDD中的分区数与其所依赖的RDD中的分区数相同,但有两个例外:合并转换允许创建分区数少于其父RDD的RDD,联合转换使用其父RDD的分区数之和创建RDD,笛卡尔用他们的产品创建了一个RDD。 增加分区的数量

  • 使用重新分区转换,这将触发洗牌
  • 配置InputFormat以创建更多拆分
  • 将输入数据以较小的块大小写入HDFS

此链接很好地解释了如何定义分区数以及如何增加分区数。

RDD中的分区数与其所依赖的RDD中的分区数相同,除了几个例外:合并转换允许创建一个RDD,其分区数少于其父RDD,联合转换使用其父RDD的分区数之和创建一个RDD,笛卡尔转换使用其乘积创建一个RDD。 增加分区的数量

  • 使用重新分区转换,这将触发洗牌
  • 配置InputFormat以创建更多拆分
  • 将输入数据以较小的块大小写入HDFS
这个链接很好地解释了如何定义分区数以及如何增加分区数