Apache spark 您在spark作业中写入的每个操作是否都在spark群集中执行？_Apache Spark

Apache spark 您在spark作业中写入的每个操作是否都在spark群集中执行？

apache-spark

Apache spark 您在spark作业中写入的每个操作是否都在spark群集中执行？,apache-spark,Apache Spark,比如说手术 val a=12+4，或者简单的东西。驱动程序是否仍将其分发到集群中假设我有一个map，比如map[String，String]（非常大，比如1000000个键值对）（假设）现在当我得到*（“某物”），这会分布在集群中以获得该值吗？如果不是，那么如果spark不一起计算简单的任务，它有什么用呢 spark如何确定任务数和作业数如果有一个流，并且为每个批执行一些操作。是否为每个批次创建新作业答复: 不，这仍然是一台驾驶员侧计算机如果在驱动程序中创建地图，则地图将保留在驱

比如说手术 val a=12+4，或者简单的东西。驱动程序是否仍将其分发到集群中

假设我有一个map，比如map[String，String]（非常大，比如1000000个键值对）（假设）

现在当我得到*（“某物”），这会分布在集群中以获得该值吗？如果不是，那么如果spark不一起计算简单的任务，它有什么用呢

spark如何确定任务数和作业数

如果有一个流，并且为每个批执行一些操作。是否为每个批次创建新作业

答复:

不，这仍然是一台驾驶员侧计算机

如果在驱动程序中创建地图，则地图将保留在驱动程序上。如果您尝试访问一个键，那么它只需在您在驱动程序内存中创建的映射上查找，然后返回值。若从集合（）中创建RDD，并且运行任何转换，那个么它将在Spark集群上运行

分区的数量通常与任务的数量相对应。当您并行化集合时，可以明确地告诉您需要多少个分区（如本例中的映射）

是，将为每个批次上执行的操作创建一个作业