Apache spark Spark SQL作业的Spark修复任务号_Apache Spark_Apache Spark Sql

Apache spark Spark SQL作业的Spark修复任务号

apache-spark

Apache spark Spark SQL作业的Spark修复任务号,apache-spark,apache-spark-sql,Apache Spark,Apache Spark Sql,我一直看到ApacheSpark安排了一系列阶段，其中包含固定的200个任务。由于这种情况不断发生在许多不同的工作中，我猜这某种程度上与Spark配置之一有关。有什么建议吗？200是洗牌过程中使用的默认分区数，由spark.sql.shuffle.partitions控制。可以使用SQLContext.setConf在运行时设置其值： sqlContext.setConf("spark.sql.shuffle.partitions", "42") 或RuntimeConfig.set spar

我一直看到ApacheSpark安排了一系列阶段，其中包含固定的200个任务。由于这种情况不断发生在许多不同的工作中，我猜这某种程度上与Spark配置之一有关。有什么建议吗？

200是洗牌过程中使用的默认分区数，由

spark.sql.shuffle.partitions

控制。可以使用

SQLContext.setConf

在运行时设置其值：

sqlContext.setConf("spark.sql.shuffle.partitions", "42")

或

RuntimeConfig.set

spark.conf.set("spark.sql.shuffle.partitions", 42)

200是洗牌过程中使用的默认分区数，由

spark.sql.shuffle.partitions

控制。可以使用

SQLContext.setConf

在运行时设置其值：

sqlContext.setConf("spark.sql.shuffle.partitions", "42")

或

RuntimeConfig.set

spark.conf.set("spark.sql.shuffle.partitions", 42)

谢谢，我想试试。但你建议42岁有什么原因吗？我在考虑增加这个数字。因为这是对所有问题的回答：）虽然这取决于你的数据和设置，但我只是使用了我想到的第一个数字。这就解决了问题。在我的例子中，我把它增加到了512。谢谢，我要试试这个。但你建议42岁有什么原因吗？我在考虑增加这个数字。因为这是对所有问题的回答：）虽然这取决于你的数据和设置，但我只是使用了我想到的第一个数字。这就解决了问题。在我的情况下，我把它增加到512。