Amazon s3 AWS粘合作业错误:调用o82.parquet时出错。找不到

Amazon s3 AWS粘合作业错误:调用o82.parquet时出错。找不到,amazon-s3,pyspark,parquet,aws-glue,aws-glue-data-catalog,Amazon S3,Pyspark,Parquet,Aws Glue,Aws Glue Data Catalog,我们使用AWS胶水作业进行一些数据处理。我们使用pyspark处理数据,但在作业的某些步骤中,我们不时会看到此错误: 调用o82.parquet时发生错误。未找到(服务:Amazon S3;状态代码:404;错误代码:404未找到;请求ID:ABC111;S3扩展请求ID:ABC111abc111) 此错误似乎是间歇性的,有时只是使用相同的参数重新运行相同的作业似乎运行良好,但它肯定不是一个非常描述性的错误,我们希望随着自动化作业数量的增加避免它 在Cloudwatch日志中,我看到了最新的日志

我们使用AWS胶水作业进行一些数据处理。我们使用pyspark处理数据,但在作业的某些步骤中,我们不时会看到此错误:

调用o82.parquet时发生错误。未找到(服务:Amazon S3;状态代码:404;错误代码:404未找到;请求ID:ABC111;S3扩展请求ID:ABC111abc111)

此错误似乎是间歇性的,有时只是使用相同的参数重新运行相同的作业似乎运行良好,但它肯定不是一个非常描述性的错误,我们希望随着自动化作业数量的增加避免它

在Cloudwatch日志中,我看到了最新的日志:

WARN  [Executor task launch worker for task 1318] client.YarnClient (YarnClient.java:makeRestApiRequest(66)) - The GET request failed for the URL http://0.0.0.0:8088/ws/v1/cluster/apps/application_1583197528647_0001
om.amazon.ws.emr.hadoop.fs.shaded.org.apache.http.conn.HttpHostConnectException: Connect to 0.0.0.0:8088 [/0.0.0.0] failed: Connection refused (Connection refused)
    at com.amazon.ws.emr.hadoop.fs.shaded.org.apache.http.impl.conn.DefaultHttpClientConnectionOperator.connect(DefaultHttpClientConnectionOperator.java:158)
...
Caused by: java.net.ConnectException: Connection refused (Connection refused)
...
ERROR [SIGTERM handler] executor.CoarseGrainedExecutorBackend (SignalUtils.scala:apply$mcZ$sp(43)) - RECEIVED SIGNAL TERM
工作概述: 使用Glue Data Catalog读取json文件,将聚合数据以拼花格式写入s3(我在这里看到一个新分区,但很确定它在这一步失败,因为我没有看到在此之后放入代码中的任何消息);从上一步读取数据,从s3读取csv映射文件,加入2个数据集,使用pyspark进行一些额外的计算,最后以csv格式将输出写入s3