Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/amazon-s3/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/gwt/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Amazon s3 Apache Spark到S3上传性能问题_Amazon S3_Hdfs_Apache Spark_Emr - Fatal编程技术网

Amazon s3 Apache Spark到S3上传性能问题

Amazon s3 Apache Spark到S3上传性能问题,amazon-s3,hdfs,apache-spark,emr,Amazon S3,Hdfs,Apache Spark,Emr,当apachespark将结果上传到S3时,我发现了一个主要的性能问题。根据我的理解,它是按照以下步骤进行的 最后阶段的输出写入HDFS中的\u temp/表,并将其移动到特定S3文件夹中的“\u temporary”文件夹中 完成整个过程后,Apache spark将完成saveAsTextFile阶段,然后将S3中的“\u temporary”文件夹中的文件移动到主文件夹中。这实际上需要很长时间[每个文件大约1分钟(平均大小:600 MB BZ2)]。此部件未被记录在通常的stderrlog

当apachespark将结果上传到S3时,我发现了一个主要的性能问题。根据我的理解,它是按照以下步骤进行的

  • 最后阶段的输出写入HDFS中的
    \u temp/
    表,并将其移动到特定
    S3
    文件夹中的
    “\u temporary”
    文件夹中

  • 完成整个过程后,Apache spark将完成
    saveAsTextFile
    阶段,然后将
    S3
    中的
    “\u temporary”
    文件夹中的文件移动到主文件夹中。这实际上需要很长时间[每个文件大约1分钟(平均大小:600 MB BZ2)]。此部件未被记录在通常的
    stderr
    log中

  • 我在AWS EMR上使用Apache
    Spark 1.0.1
    Hadoop 2.2

    有人遇到过这个问题吗

    更新1

    如何增加执行此移动进程的线程数

    非常感谢您的任何建议


    谢谢

    我使用以下功能。它将文件上传到s3。它可以在4-6分钟内上传60 gb左右的gz文件

            ctx.hadoopConfiguration().set("mapred.textoutputformat.separator",
                    ",");
            counts.saveAsHadoopFile(s3outputpath, Text.class, Text.class,
                    TextOutputFormat.class);
    
    确保创建更多的输出文件。更多的小文件将使上传速度更快

    API详细信息
    saveAsHadoopFile[F这是由SPARK-3595()修复的。它被合并到版本1.1.0.e和更高版本中(请参见)。

    您能详细说明您的答案吗?它在表单中不起作用…使用“Text.class”会抛出错误…您可以将函数用作saveAsHadoopFile[F]