Scala 库杜'；在spark中只使用一个任务的InsertInorRows方法_Scala_Apache Spark_Apache Spark Sql_Apache Kudu

Scala 库杜'；在spark中只使用一个任务的InsertInorRows方法

scala apache-spark

Scala 库杜'；在spark中只使用一个任务的InsertInorRows方法,scala,apache-spark,apache-spark-sql,apache-kudu,Scala,Apache Spark,Apache Spark Sql,Apache Kudu,我第一次在spark scala中使用kudu。我使用spark在我的kudu表中插入数据并检查其性能，我使用了1M记录。以下是spark的详细信息：- spark版本：-1.6 Kudu版本：-1.5.0-cdh5.13.0 总芯数：-16 遗嘱执行人：-3 每个执行者的核心：-4 现在，从spark UI中，我可以看到为每个操作创建的任务数。一切都很好，处于分布式模式，但在将数据插入KUDU表时，它只使用一个任务。正如我在kudu内部实现中所看到的，它使用foreachpartition，也

我第一次在spark scala中使用kudu。我使用spark在我的kudu表中插入数据并检查其性能，我使用了1M记录。以下是spark的详细信息：- spark版本：-1.6 Kudu版本：-1.5.0-cdh5.13.0 总芯数：-16 遗嘱执行人：-3 每个执行者的核心：-4

现在，从spark UI中，我可以看到为每个操作创建的任务数。一切都很好，处于分布式模式，但在将数据插入KUDU表时，它只使用一个任务。正如我在kudu内部实现中所看到的，它使用foreachpartition，也使用kudu sync spark分区和表分区。现在，我很困惑，因为在创建表时我使用了逐哈希分区，比如：-逐哈希分区（月）分区4。所以，即使kudu同步spark分区和kudu表分区，它也应该使用4个任务，以及为什么它只使用1个任务。由于火花作业的这种性能降低了