Amazon web services 使用saveAsTable将拼花地板数据写入S3无法完成_Amazon Web Services_Apache Spark_Amazon S3_Pyspark_Apache Spark Sql

Amazon web services 使用saveAsTable将拼花地板数据写入S3无法完成

amazon-web-services apache-spark amazon-s3 pyspark

Amazon web services 使用saveAsTable将拼花地板数据写入S3无法完成,amazon-web-services,apache-spark,amazon-s3,pyspark,apache-spark-sql,Amazon Web Services,Apache Spark,Amazon S3,Pyspark,Apache Spark Sql,在EC2机器上使用Spark 2.0.2，我一直在尝试将表以拼花格式写入S3，并使用分区，但应用程序似乎从未完成。我可以看到Spark已经将文件写入了S3 bucket/文件夹中的_temporary下，一旦Spark saveAsTable作业完成，应用程序就会挂起查看s3可以看出，分区是用文件夹分区（抽查）中的数据生成的，但是_临时文件夹仍然存在，并且show tables不包括新表是否有其他人遇到过这种情况或有解决方案有人知道saveAsTable命令下面发生了什么吗？它没有挂起，只

在EC2机器上使用Spark 2.0.2，我一直在尝试将表以拼花格式写入S3，并使用分区，但应用程序似乎从未完成。我可以看到Spark已经将文件写入了S3 bucket/文件夹中的_temporary下，一旦Spark saveAsTable作业完成，应用程序就会挂起

查看s3可以看出，分区是用文件夹分区（抽查）中的数据生成的，但是_临时文件夹仍然存在，并且show tables不包括新表

是否有其他人遇到过这种情况或有解决方案

有人知道saveAsTable命令下面发生了什么吗？

它没有挂起，只是需要将数据从临时存储复制到目标，这需要大约10 MB/s的时间。Spark正在调用Hadoop的FileOutputCommitter来执行此操作，它认为它正在与FileySem对话，其中rename（）是一个即时事务。

请使用loglevel DEBUG/INFO运行此作业，并检查其卡住的位置。我今天在使用Apache Spark使用

saveAsTable（）编写数据时发现了类似的情况

启用AWS胶水。