Apache spark ApacheSpark-很少有掉队的任务会减慢阶段和作业的速度
我有一份spark工作,负责读取、消除重复数据并连接存储在S3中的数据集。存储的数据采用ORC格式,并经过zlib压缩。在第一阶段(读取和重复数据消除部分),少量散乱任务需要花费大量时间才能完成。我分析了指标,发现如下:Apache spark ApacheSpark-很少有掉队的任务会减慢阶段和作业的速度,apache-spark,amazon-s3,orc,Apache Spark,Amazon S3,Orc,我有一份spark工作,负责读取、消除重复数据并连接存储在S3中的数据集。存储的数据采用ORC格式,并经过zlib压缩。在第一阶段(读取和重复数据消除部分),少量散乱任务需要花费大量时间才能完成。我分析了指标,发现如下: 这些任务处理的数据量几乎相同 任务的随机写入几乎相同 每个任务的GC持续时间可以忽略不计 请找到一些截图以供参考。其中一个屏幕截图显示了指标。另一个描述了两个任务所用的时间(30分钟/4.1分钟),在随机写入(9.2 mb/10.3 mb)或数据倾斜(6.4 M/7.2 M)方