Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/sql-server-2008/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 无法重命名S3AFileStatus_Apache Spark_Hadoop_Amazon S3 - Fatal编程技术网

Apache spark 无法重命名S3AFileStatus

Apache spark 无法重命名S3AFileStatus,apache-spark,hadoop,amazon-s3,Apache Spark,Hadoop,Amazon S3,在本地EC2上运行“hadoop-3.1.1”和“spark-2.4.0-bin-without-hadoop”时,我遇到以下错误 [Stage 6:> (0 + 32) / 200] 2019-10-03 15:40:34 ERROR SparkHadoopMapRedUtil:91 - Error committing the output of task: attempt_20

在本地EC2上运行“hadoop-3.1.1”和“spark-2.4.0-bin-without-hadoop”时,我遇到以下错误

[Stage 6:>                                                       (0 + 32) / 200]
2019-10-03 15:40:34 ERROR SparkHadoopMapRedUtil:91 - Error committing the output of task: attempt_20191003154033_0006_m_000000_0
java.io.IOException: 
Failed to rename S3AFileStatus{path=s3a://mck-547-data/data_dev/z_ref/ref_proc/_temporary/0/_temporary/attempt_20191003154033_0006_m_000000_0/part-00000-f3c3b55e-97e9-47d1-a7e2-1b35177e6206-c000.snappy.parquet; 
isDirectory=false; length=7945; replication=1; blocksize=33554432; modification_time=1570117234000; access_time=0; owner=kk_shinde; group=kk_shinde; permission=rw-rw-rw-; isSymlink=false; hasAcl=false; isEncrypted=false; isErasureCoded=false} isEmptyDirectory=FALSE 
to s3a://mck-547-data/data_dev/z_ref/ref_proc/part-00000-f3c3b55e-97e9-47d1-a7e2-1b35177e6206-c000.snappy.parquet
我用谷歌搜索了一下,所有的链接都提交了,如下所示

尝试将以下属性添加到spark conf:

#spark.hadoop.fs.s3a.buffer.dir /tmp/spark_tmp/
#spark.hadoop.s.s3a.committer.staging.conflict-mode replace
但是仍然会出现这个错误。只是想知道什么是简单的解决方案。我们正在尝试在代码中写入本地和执行S3同步的选项。但这是非常粗糙的做法


有什么建议吗?

还添加了属性:
spark.hadoop.fs.s3a.committer.name目录
对于s3a提交者,您需要运行hadoop-3.1+二进制文件和一个包含额外绑定类的spark构建。你有什么版本?谢谢史蒂夫!我使用的hadoop和spark版本是-'hadoop-3.1.1'和'spark-2.4.0-bin-without-hadoop'。他们是否有额外的绑定类,或者我遗漏了什么?有一些额外的绑定类,您不在shipping spark版本中;该补丁只更新了一个版本。它们在HDP3Spark二进制文件中,如果你能抓到的话。这只是几个类,但需要将parquet和其他提交程序修复为可插入的,您能建议哪些二进制文件以及如何绑定它们吗。或者任何解释这一点的文档?还添加了属性:
spark.hadoop.fs.s3a.committer.name目录
对于s3a提交程序,您需要运行hadoop-3.1+二进制文件和包含额外绑定类的spark构建。你有什么版本?谢谢史蒂夫!我使用的hadoop和spark版本是-'hadoop-3.1.1'和'spark-2.4.0-bin-without-hadoop'。他们是否有额外的绑定类,或者我遗漏了什么?有一些额外的绑定类,您不在shipping spark版本中;该补丁只更新了一个版本。它们在HDP3Spark二进制文件中,如果你能抓到的话。这只是几个类,但需要将parquet和其他提交程序修复为可插入的,您能建议哪些二进制文件以及如何绑定它们吗。或者任何解释这一点的文件?