Amazon s3 Apache Spark到S3上传性能问题
当apachespark将结果上传到S3时,我发现了一个主要的性能问题。根据我的理解,它是按照以下步骤进行的Amazon s3 Apache Spark到S3上传性能问题,amazon-s3,hdfs,apache-spark,emr,Amazon S3,Hdfs,Apache Spark,Emr,当apachespark将结果上传到S3时,我发现了一个主要的性能问题。根据我的理解,它是按照以下步骤进行的 最后阶段的输出写入HDFS中的\u temp/表,并将其移动到特定S3文件夹中的“\u temporary”文件夹中 完成整个过程后,Apache spark将完成saveAsTextFile阶段,然后将S3中的“\u temporary”文件夹中的文件移动到主文件夹中。这实际上需要很长时间[每个文件大约1分钟(平均大小:600 MB BZ2)]。此部件未被记录在通常的stderrlog
\u temp/
表,并将其移动到特定S3
文件夹中的“\u temporary”
文件夹中saveAsTextFile
阶段,然后将S3
中的“\u temporary”
文件夹中的文件移动到主文件夹中。这实际上需要很长时间[每个文件大约1分钟(平均大小:600 MB BZ2)]。此部件未被记录在通常的stderr
log中Spark 1.0.1
和Hadoop 2.2
有人遇到过这个问题吗
更新1
如何增加执行此移动进程的线程数
非常感谢您的任何建议
谢谢我使用以下功能。它将文件上传到s3。它可以在4-6分钟内上传60 gb左右的gz文件
ctx.hadoopConfiguration().set("mapred.textoutputformat.separator",
",");
counts.saveAsHadoopFile(s3outputpath, Text.class, Text.class,
TextOutputFormat.class);
确保创建更多的输出文件。更多的小文件将使上传速度更快
API详细信息
saveAsHadoopFile[F这是由SPARK-3595()修复的。它被合并到版本1.1.0.e和更高版本中(请参见)。您能详细说明您的答案吗?它在表单中不起作用…使用“Text.class”会抛出错误…您可以将函数用作saveAsHadoopFile[F]