Amazon s3 Apache Spark到S3上传性能问题_Amazon S3_Hdfs_Apache Spark_Emr

Amazon s3 Apache Spark到S3上传性能问题

amazon-s3 apache-spark

Amazon s3 Apache Spark到S3上传性能问题,amazon-s3,hdfs,apache-spark,emr,Amazon S3,Hdfs,Apache Spark,Emr,当apachespark将结果上传到S3时，我发现了一个主要的性能问题。根据我的理解，它是按照以下步骤进行的最后阶段的输出写入HDFS中的\u temp/表，并将其移动到特定S3文件夹中的“\u temporary”文件夹中完成整个过程后，Apache spark将完成saveAsTextFile阶段，然后将S3中的“\u temporary”文件夹中的文件移动到主文件夹中。这实际上需要很长时间[每个文件大约1分钟（平均大小：600 MB BZ2）]。此部件未被记录在通常的stderrlog

当apachespark将结果上传到S3时，我发现了一个主要的性能问题。根据我的理解，它是按照以下步骤进行的

最后阶段的输出写入HDFS中的

\u temp/

表，并将其移动到特定

S3

文件夹中的

“\u temporary”

文件夹中

完成整个过程后，Apache spark将完成

saveAsTextFile

阶段，然后将

S3

中的

“\u temporary”

文件夹中的文件移动到主文件夹中。这实际上需要很长时间[每个文件大约1分钟（平均大小：600 MB BZ2）]。此部件未被记录在通常的

stderr

log中

我在AWS EMR上使用Apache

Spark 1.0.1

和

Hadoop 2.2

有人遇到过这个问题吗

更新1

如何增加执行此移动进程的线程数

非常感谢您的任何建议

谢谢

我使用以下功能。它将文件上传到s3。它可以在4-6分钟内上传60 gb左右的gz文件

        ctx.hadoopConfiguration().set("mapred.textoutputformat.separator",
                ",");
        counts.saveAsHadoopFile(s3outputpath, Text.class, Text.class,
                TextOutputFormat.class);

确保创建更多的输出文件。更多的小文件将使上传速度更快

API详细信息

saveAsHadoopFile[F这是由SPARK-3595（）修复的。它被合并到版本1.1.0.e和更高版本中（请参见）。

您能详细说明您的答案吗？它在表单中不起作用…使用“Text.class”会抛出错误…您可以将函数用作saveAsHadoopFile[F]