Python Pyspark数据帧检查点,然后插入到无法正常工作

Python Pyspark数据帧检查点,然后插入到无法正常工作,python,apache-spark,pyspark,checkpoint,Python,Apache Spark,Pyspark,Checkpoint,我目前正在处理以下场景: 读取S3 Parquets文件(通过配置单元元数据)作为PySpark数据帧 在这个DF上做一些编辑 在我读过的同一个表上——在一个特定的分区中——写这个相同的DF 因为我在同一个表上执行读写操作,所以需要中断数据沿袭,这是通过df.checkpoint()函数实现的 但实际情况是: RDD检查点写入正常 _更新成功文件(在表的根目录上) 新的分区文件有时会被写入,但并不一致 Spark Job以成功而告终 代码片段(很简单) df=df.checkpoint(

我目前正在处理以下场景:

  • 读取S3 Parquets文件(通过配置单元元数据)作为PySpark数据帧
  • 在这个DF上做一些编辑
  • 在我读过的同一个表上——在一个特定的分区中——写这个相同的DF
因为我在同一个表上执行读写操作,所以需要中断数据沿袭,这是通过
df.checkpoint()
函数实现的

但实际情况是:

  • RDD检查点写入正常
  • _更新成功文件(在表的根目录上)
  • 新的分区文件有时会被写入,但并不一致
  • Spark Job以成功而告终
代码片段(很简单)

df=df.checkpoint()
insertInto(f“{db}.{table}”,overwrite=True)
这是一个简单的代码片段,应该可以正常工作。大多数情况下,当我们在一天中的其他时间重试任务时,它可以正常工作

有没有人对它发生了什么有一点了解