Apache spark 为什么火花阶段';当作为第一个操作运行时,执行器的计算时间比通常要长得多?

Apache spark 为什么火花阶段';当作为第一个操作运行时,执行器的计算时间比通常要长得多?,apache-spark,Apache Spark,这是我的密码: import time import random NUM_SAMPLES = 1000000 def sample(p): x, y = random.random(), random.random() return 1 if x*x + y*y < 1 else 0 count = sc.parallelize(xrange(0, NUM_SAMPLES)).map(sample).reduce(lambda a, b: a + b) print "Pi

这是我的密码:

import time
import random

NUM_SAMPLES = 1000000
def sample(p):
  x, y = random.random(), random.random()
  return 1 if x*x + y*y < 1 else 0

  count = sc.parallelize(xrange(0, NUM_SAMPLES)).map(sample).reduce(lambda a, b: a + b)
print "Pi is roughly %f" % (4.0 * count / NUM_SAMPLES)
导入时间
随机输入
样本数=1000000
def样品(p):
x、 y=random.random(),random.random()
如果x*x+y*y<1,则返回1,否则返回0
count=sc.parallelize(xrange(0,NUM_SAMPLES)).map(sample).reduce(lambda,b:a+b)
打印“Pi大约为%f”%(4.0*计数/个样本)

这是stages页面,stage0比其他stages花费了大约0.5秒的时间,我想知道0.5秒到哪里去了?附加信息,主要区别在于执行器的计算时间


什么是任务的数据本地化?每次运行的行为是否相同?localhost,是。