Apache spark ApacheSpark-很少有掉队的任务会减慢阶段和作业的速度_Apache Spark_Amazon S3_Orc

Apache spark ApacheSpark-很少有掉队的任务会减慢阶段和作业的速度

apache-spark amazon-s3

Apache spark ApacheSpark-很少有掉队的任务会减慢阶段和作业的速度,apache-spark,amazon-s3,orc,Apache Spark,Amazon S3,Orc,我有一份spark工作，负责读取、消除重复数据并连接存储在S3中的数据集。存储的数据采用ORC格式，并经过zlib压缩。在第一阶段（读取和重复数据消除部分），少量散乱任务需要花费大量时间才能完成。我分析了指标，发现如下：这些任务处理的数据量几乎相同任务的随机写入几乎相同每个任务的GC持续时间可以忽略不计请找到一些截图以供参考。其中一个屏幕截图显示了指标。另一个描述了两个任务所用的时间（30分钟/4.1分钟），在随机写入（9.2 mb/10.3 mb）或数据倾斜（6.4 M/7.2 M）方

我有一份spark工作，负责读取、消除重复数据并连接存储在S3中的数据集。存储的数据采用ORC格式，并经过zlib压缩。在第一阶段（读取和重复数据消除部分），少量散乱任务需要花费大量时间才能完成。我分析了指标，发现如下：

这些任务处理的数据量几乎相同

任务的随机写入几乎相同

每个任务的GC持续时间可以忽略不计

请找到一些截图以供参考。其中一个屏幕截图显示了指标。另一个描述了两个任务所用的时间（30分钟/4.1分钟），在随机写入（9.2 mb/10.3 mb）或数据倾斜（6.4 M/7.2 M）方面几乎没有任何差异，并且没有任何明显的GC延迟（5秒/1秒）

我在这里迷路了，不知道是什么导致了这一切。任何帮助都将不胜感激

致意

注意：IP已从第二个图像的第五列中删除。