Apache spark 如何设置“的数量”;地图绘制者“/火花分割

Apache spark 如何设置“的数量”;地图绘制者“/火花分割,apache-spark,Apache Spark,我对我读过的一些代码有疑问。他们以同样的方式将“分区”称为“映射”(认为是MapReduce样式): --执行器核心总数#maps是映射数 var data=sc.textFile(inputFile,nPartitions)代码注释说“nPartitions是贴图的编号” 那么,在概念上,它们是相同的吗 你说得对。 核心数映射到可以在| |中计算的任务数。 这个号码是固定的。但是分区的数量随着作业的不同而变化。对于每个部分,我们有一个任务,一个任务由一个核心处理。 分区数定义任务数。为了控

我对我读过的一些代码有疑问。他们以同样的方式将“分区”称为“映射”(认为是
MapReduce
样式):

  • --执行器核心总数#maps
    是映射数
  • var data=sc.textFile(inputFile,nPartitions)
    代码注释说“
    nPartitions
    是贴图的编号”
那么,在概念上,它们是相同的吗

你说得对。 核心数映射到可以在| |中计算的任务数。 这个号码是固定的。但是分区的数量随着作业的不同而变化。对于每个部分,我们有一个任务,一个任务由一个核心处理。
分区数定义任务数。

为了控制RDD的特定分区,可以使用“”方法或“”方法。 如果您希望在所有映射器的所有RDD上使用它,则应使用: set(“,s”${所需的映射程序数}”) 如果你想控制洗牌(减速器) sparkConf.set(“,s”${所需的还原数}”)

Number of cores是分配给群集中作业的核心数