Apache spark 无法重命名S3AFileStatus_Apache Spark_Hadoop_Amazon S3

Apache spark 无法重命名S3AFileStatus

apache-spark hadoop amazon-s3

Apache spark 无法重命名S3AFileStatus,apache-spark,hadoop,amazon-s3,Apache Spark,Hadoop,Amazon S3,在本地EC2上运行“hadoop-3.1.1”和“spark-2.4.0-bin-without-hadoop”时，我遇到以下错误 [Stage 6:> (0 + 32) / 200] 2019-10-03 15:40:34 ERROR SparkHadoopMapRedUtil:91 - Error committing the output of task: attempt_20

在本地EC2上运行“hadoop-3.1.1”和“spark-2.4.0-bin-without-hadoop”时，我遇到以下错误

[Stage 6:>                                                       (0 + 32) / 200]
2019-10-03 15:40:34 ERROR SparkHadoopMapRedUtil:91 - Error committing the output of task: attempt_20191003154033_0006_m_000000_0
java.io.IOException: 
Failed to rename S3AFileStatus{path=s3a://mck-547-data/data_dev/z_ref/ref_proc/_temporary/0/_temporary/attempt_20191003154033_0006_m_000000_0/part-00000-f3c3b55e-97e9-47d1-a7e2-1b35177e6206-c000.snappy.parquet; 
isDirectory=false; length=7945; replication=1; blocksize=33554432; modification_time=1570117234000; access_time=0; owner=kk_shinde; group=kk_shinde; permission=rw-rw-rw-; isSymlink=false; hasAcl=false; isEncrypted=false; isErasureCoded=false} isEmptyDirectory=FALSE 
to s3a://mck-547-data/data_dev/z_ref/ref_proc/part-00000-f3c3b55e-97e9-47d1-a7e2-1b35177e6206-c000.snappy.parquet

我用谷歌搜索了一下，所有的链接都提交了，如下所示

尝试将以下属性添加到spark conf：

#spark.hadoop.fs.s3a.buffer.dir /tmp/spark_tmp/
#spark.hadoop.s.s3a.committer.staging.conflict-mode replace

但是仍然会出现这个错误。只是想知道什么是简单的解决方案。我们正在尝试在代码中写入本地和执行S3同步的选项。但这是非常粗糙的做法

有什么建议吗？

还添加了属性：

spark.hadoop.fs.s3a.committer.name目录

对于s3a提交者，您需要运行hadoop-3.1+二进制文件和一个包含额外绑定类的spark构建。你有什么版本？谢谢史蒂夫！我使用的hadoop和spark版本是-'hadoop-3.1.1'和'spark-2.4.0-bin-without-hadoop'。他们是否有额外的绑定类，或者我遗漏了什么？有一些额外的绑定类，您不在shipping spark版本中；该补丁只更新了一个版本。它们在HDP3Spark二进制文件中，如果你能抓到的话。这只是几个类，但需要将parquet和其他提交程序修复为可插入的，您能建议哪些二进制文件以及如何绑定它们吗。或者任何解释这一点的文档？还添加了属性：

spark.hadoop.fs.s3a.committer.name目录

对于s3a提交程序，您需要运行hadoop-3.1+二进制文件和包含额外绑定类的spark构建。你有什么版本？谢谢史蒂夫！我使用的hadoop和spark版本是-'hadoop-3.1.1'和'spark-2.4.0-bin-without-hadoop'。他们是否有额外的绑定类，或者我遗漏了什么？有一些额外的绑定类，您不在shipping spark版本中；该补丁只更新了一个版本。它们在HDP3Spark二进制文件中，如果你能抓到的话。这只是几个类，但需要将parquet和其他提交程序修复为可插入的，您能建议哪些二进制文件以及如何绑定它们吗。或者任何解释这一点的文件？