Apache spark FileNotFoundException-delta_日志中缺少checkpoint.parquet
我有一些每天都在做的工作。不幸的是,其中一些有时会随机抛出异常:Apache spark FileNotFoundException-delta_日志中缺少checkpoint.parquet,apache-spark,pyspark,pyspark-sql,databricks,pyspark-dataframes,Apache Spark,Pyspark,Pyspark Sql,Databricks,Pyspark Dataframes,我有一些每天都在做的工作。不幸的是,其中一些有时会随机抛出异常: java.io.FileNotFoundException:_delta_log/00000000000070.checkpoint.parquet 问题是,这个错误不是恒定的,有时是作业抛出的,有时不是,因此寻找原因就像大海捞针 几个月前我遇到了一个类似的问题,我发现将Databricks运行时版本更新到5.5可以解决这个问题。当然,它解决了,但几个月后错误又回来了,我找不到任何合理的解决办法来防止它 是否有人必须强迫这个问题,
java.io.FileNotFoundException:_delta_log/00000000000070.checkpoint.parquet
问题是,这个错误不是恒定的,有时是作业抛出的,有时不是,因此寻找原因就像大海捞针
几个月前我遇到了一个类似的问题,我发现将Databricks运行时版本更新到5.5可以解决这个问题。当然,它解决了,但几个月后错误又回来了,我找不到任何合理的解决办法来防止它
是否有人必须强迫这个问题,并找到一个解决方案如何防止它
我真的非常感谢任何建议和帮助 这看起来像是Databricks已知的暂时性问题,Databricks团队已经意识到了这一点 以下是Databricks团队建议的解决方法: 禁用日志清理。例如:
%sql
ALTER TABLE
SET TBLPROPERTIES (
'delta.enableExpiredLogCleanup' = 'false',
)
确保在2天内生成超过2个检查点(换句话说,超过30个提交)
增加增量表属性“checkpointRetentionDuration”,并确保在此新的持续时间内,创建的检查点超过2个(换句话说,超过30个提交)。例如:
%sql
ALTER TABLE
SET TBLPROPERTIES (
'delta.checkpointRetentionDuration' = '7 days',
)
Databricks团队提供的修复方案是确保您不会再次遇到该问题。Databricks团队正在对此进行永久性修复