Apache spark Spark SQL作业的Spark修复任务号
我一直看到ApacheSpark安排了一系列阶段,其中包含固定的200个任务。由于这种情况不断发生在许多不同的工作中,我猜这某种程度上与Spark配置之一有关。有什么建议吗?200是洗牌过程中使用的默认分区数,由Apache spark Spark SQL作业的Spark修复任务号,apache-spark,apache-spark-sql,Apache Spark,Apache Spark Sql,我一直看到ApacheSpark安排了一系列阶段,其中包含固定的200个任务。由于这种情况不断发生在许多不同的工作中,我猜这某种程度上与Spark配置之一有关。有什么建议吗?200是洗牌过程中使用的默认分区数,由spark.sql.shuffle.partitions控制。可以使用SQLContext.setConf在运行时设置其值: sqlContext.setConf("spark.sql.shuffle.partitions", "42") 或RuntimeConfig.set spar
spark.sql.shuffle.partitions
控制。可以使用SQLContext.setConf
在运行时设置其值:
sqlContext.setConf("spark.sql.shuffle.partitions", "42")
或RuntimeConfig.set
spark.conf.set("spark.sql.shuffle.partitions", 42)
200是洗牌过程中使用的默认分区数,由
spark.sql.shuffle.partitions
控制。可以使用SQLContext.setConf
在运行时设置其值:
sqlContext.setConf("spark.sql.shuffle.partitions", "42")
或RuntimeConfig.set
spark.conf.set("spark.sql.shuffle.partitions", 42)
谢谢,我想试试。但你建议42岁有什么原因吗?我在考虑增加这个数字。因为这是对所有问题的回答:)虽然这取决于你的数据和设置,但我只是使用了我想到的第一个数字。这就解决了问题。在我的例子中,我把它增加到了512。谢谢,我要试试这个。但你建议42岁有什么原因吗?我在考虑增加这个数字。因为这是对所有问题的回答:)虽然这取决于你的数据和设置,但我只是使用了我想到的第一个数字。这就解决了问题。在我的情况下,我把它增加到512。