Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/amazon-s3/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark ApacheSpark-很少有掉队的任务会减慢阶段和作业的速度_Apache Spark_Amazon S3_Orc - Fatal编程技术网

Apache spark ApacheSpark-很少有掉队的任务会减慢阶段和作业的速度

Apache spark ApacheSpark-很少有掉队的任务会减慢阶段和作业的速度,apache-spark,amazon-s3,orc,Apache Spark,Amazon S3,Orc,我有一份spark工作,负责读取、消除重复数据并连接存储在S3中的数据集。存储的数据采用ORC格式,并经过zlib压缩。在第一阶段(读取和重复数据消除部分),少量散乱任务需要花费大量时间才能完成。我分析了指标,发现如下: 这些任务处理的数据量几乎相同 任务的随机写入几乎相同 每个任务的GC持续时间可以忽略不计 请找到一些截图以供参考。其中一个屏幕截图显示了指标。另一个描述了两个任务所用的时间(30分钟/4.1分钟),在随机写入(9.2 mb/10.3 mb)或数据倾斜(6.4 M/7.2 M)方

我有一份spark工作,负责读取、消除重复数据并连接存储在S3中的数据集。存储的数据采用ORC格式,并经过zlib压缩。在第一阶段(读取和重复数据消除部分),少量散乱任务需要花费大量时间才能完成。我分析了指标,发现如下:

  • 这些任务处理的数据量几乎相同
  • 任务的随机写入几乎相同
  • 每个任务的GC持续时间可以忽略不计
  • 请找到一些截图以供参考。其中一个屏幕截图显示了指标。另一个描述了两个任务所用的时间(30分钟/4.1分钟),在随机写入(9.2 mb/10.3 mb)或数据倾斜(6.4 M/7.2 M)方面几乎没有任何差异,并且没有任何明显的GC延迟(5秒/1秒)

    我在这里迷路了,不知道是什么导致了这一切。任何帮助都将不胜感激

    致意

    注意:IP已从第二个图像的第五列中删除。