Scala 库杜';在spark中只使用一个任务的InsertInorRows方法

Scala 库杜';在spark中只使用一个任务的InsertInorRows方法,scala,apache-spark,apache-spark-sql,apache-kudu,Scala,Apache Spark,Apache Spark Sql,Apache Kudu,我第一次在spark scala中使用kudu。我使用spark在我的kudu表中插入数据并检查其性能,我使用了1M记录。以下是spark的详细信息:- spark版本:-1.6 Kudu版本:-1.5.0-cdh5.13.0 总芯数:-16 遗嘱执行人:-3 每个执行者的核心:-4 现在,从spark UI中,我可以看到为每个操作创建的任务数。一切都很好,处于分布式模式,但在将数据插入KUDU表时,它只使用一个任务。正如我在kudu内部实现中所看到的,它使用foreachpartition,也

我第一次在spark scala中使用kudu。我使用spark在我的kudu表中插入数据并检查其性能,我使用了1M记录。以下是spark的详细信息:- spark版本:-1.6 Kudu版本:-1.5.0-cdh5.13.0 总芯数:-16 遗嘱执行人:-3 每个执行者的核心:-4

现在,从spark UI中,我可以看到为每个操作创建的任务数。一切都很好,处于分布式模式,但在将数据插入KUDU表时,它只使用一个任务。正如我在kudu内部实现中所看到的,它使用foreachpartition,也使用kudu sync spark分区和表分区。现在,我很困惑,因为在创建表时我使用了逐哈希分区,比如:-逐哈希分区(月)分区4。所以,即使kudu同步spark分区和kudu表分区,它也应该使用4个任务,以及为什么它只使用1个任务。由于火花作业的这种性能降低了