Apache spark 您在spark作业中写入的每个操作是否都在spark群集中执行?

Apache spark 您在spark作业中写入的每个操作是否都在spark群集中执行?,apache-spark,Apache Spark,比如说手术 val a=12+4,或者简单的东西。 驱动程序是否仍将其分发到集群中 假设我有一个map,比如map[String,String](非常大,比如1000000个键值对)(假设) 现在当我得到*(“某物”), 这会分布在集群中以获得该值吗? 如果不是,那么如果spark不一起计算简单的任务,它有什么用呢 spark如何确定任务数和作业数 如果有一个流,并且为每个批执行一些操作。是否为每个批次创建新作业 答复: 不,这仍然是一台驾驶员侧计算机 如果在驱动程序中创建地图,则地图将保留在驱

比如说手术 val a=12+4,或者简单的东西。 驱动程序是否仍将其分发到集群中

  • 假设我有一个map,比如map[String,String](非常大,比如1000000个键值对)(假设)

  • 现在当我得到*(“某物”), 这会分布在集群中以获得该值吗? 如果不是,那么如果spark不一起计算简单的任务,它有什么用呢

  • spark如何确定任务数和作业数

  • 如果有一个流,并且为每个批执行一些操作。是否为每个批次创建新作业

  • 答复:

  • 不,这仍然是一台驾驶员侧计算机
  • 如果在驱动程序中创建地图,则地图将保留在驱动程序上。如果您尝试访问一个键,那么它只需在您在驱动程序内存中创建的映射上查找,然后返回值。 若从集合()中创建RDD,并且运行任何转换,那个么它将在Spark集群上运行
  • 分区的数量通常与任务的数量相对应。当您并行化集合时,可以明确地告诉您需要多少个分区(如本例中的映射)
  • 是,将为每个批次上执行的操作创建一个作业