Apache spark 为什么我的舞台(带洗牌)没有';带核心的t标度?

Apache spark 为什么我的舞台(带洗牌)没有';带核心的t标度?,apache-spark,shuffle,core,executor,Apache Spark,Shuffle,Core,Executor,我使用Spark并运行一个GPSJ查询(join和GroupBy of two table)。在前两个阶段中,spark从表中读取数据,然后以无序写入的方式写入数据,这样就没有问题了。在第三阶段中,它读取这些数据(随机读取),进行连接和部分分组,并进行另一次随机写入。如果我使用2/4/8内核(每个执行器)运行应用程序,它不会有太多变化。为什么? 为什么只有一个执行器(所有从映射器到本地磁盘上的reducer的随机数据)在随机读取20,7Gb和写入380Mb(我的磁盘是100Mb/s)时速度如此之

我使用Spark并运行一个GPSJ查询(join和GroupBy of two table)。在前两个阶段中,spark从表中读取数据,然后以无序写入的方式写入数据,这样就没有问题了。在第三阶段中,它读取这些数据(随机读取),进行连接和部分分组,并进行另一次随机写入。如果我使用2/4/8内核(每个执行器)运行应用程序,它不会有太多变化。为什么? 为什么只有一个执行器(所有从映射器到本地磁盘上的reducer的随机数据)在随机读取20,7Gb和写入380Mb(我的磁盘是100Mb/s)时速度如此之慢(8,9分钟)?我的速度类似于21*1024/100=215秒。

这是本地模式吗?一些配置细节,如内存和磁盘设置将非常有用。它位于一个纱线集群上,每个执行器设置有20GB内存,每个节点有1个磁盘(1Tb)7200rpm