Apache spark 为什么在Spark中洗牌写入时执行器计算时间这么长？_Apache Spark

Apache spark 为什么在Spark中洗牌写入时执行器计算时间这么长？

apache-spark

Apache spark 为什么在Spark中洗牌写入时执行器计算时间这么长？,apache-spark,Apache Spark,对于每个任务，洗牌写入时间仅为2秒，但执行器计算时间可能为10分钟或更长。代码为reduceByKey，此阶段没有其他操作。系统在计算期间做什么？我能做些什么来减少时间成本？我有同样的问题。我使用PySpark，计算相同大小的相同矩阵乘法在每个spark核上都比较慢。这是因为Spark map函数的作用类似于for循环，而在单线程python中，矩阵操作是矢量化的吗？我有同样的问题。我使用PySpark，计算相同大小的相同矩阵乘法在每个spark核上都比较慢。这是因为Spark map函数的作用

对于每个任务，洗牌写入时间仅为2秒，但执行器计算时间可能为10分钟或更长。代码为

reduceByKey

，此阶段没有其他操作。系统在计算期间做什么？我能做些什么来减少时间成本？

我有同样的问题。我使用PySpark，计算相同大小的相同矩阵乘法在每个spark核上都比较慢。这是因为Spark map函数的作用类似于for循环，而在单线程python中，矩阵操作是矢量化的吗？我有同样的问题。我使用PySpark，计算相同大小的相同矩阵乘法在每个spark核上都比较慢。这是因为Spark map函数的作用类似于for循环，而在单线程python中，矩阵操作是矢量化的吗？