Amazon web services 使用saveAsTable将拼花地板数据写入S3无法完成

Amazon web services 使用saveAsTable将拼花地板数据写入S3无法完成,amazon-web-services,apache-spark,amazon-s3,pyspark,apache-spark-sql,Amazon Web Services,Apache Spark,Amazon S3,Pyspark,Apache Spark Sql,在EC2机器上使用Spark 2.0.2,我一直在尝试将表以拼花格式写入S3,并使用分区,但应用程序似乎从未完成。我可以看到Spark已经将文件写入了S3 bucket/文件夹中的_temporary下,一旦Spark saveAsTable作业完成,应用程序就会挂起 查看s3可以看出,分区是用文件夹分区(抽查)中的数据生成的,但是_临时文件夹仍然存在,并且show tables不包括新表 是否有其他人遇到过这种情况或有解决方案 有人知道saveAsTable命令下面发生了什么吗?它没有挂起,只

在EC2机器上使用Spark 2.0.2,我一直在尝试将表以拼花格式写入S3,并使用分区,但应用程序似乎从未完成。我可以看到Spark已经将文件写入了S3 bucket/文件夹中的_temporary下,一旦Spark saveAsTable作业完成,应用程序就会挂起

查看s3可以看出,分区是用文件夹分区(抽查)中的数据生成的,但是_临时文件夹仍然存在,并且show tables不包括新表

是否有其他人遇到过这种情况或有解决方案


有人知道saveAsTable命令下面发生了什么吗?

它没有挂起,只是需要将数据从临时存储复制到目标,这需要大约10 MB/s的时间。Spark正在调用Hadoop的FileOutputCommitter来执行此操作,它认为它正在与FileySem对话,其中rename()是一个即时事务。

请使用loglevel DEBUG/INFO运行此作业,并检查其卡住的位置。我今天在使用Apache Spark使用
saveAsTable()编写数据时发现了类似的情况
启用AWS胶水。