Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark FileNotFoundException-delta_日志中缺少checkpoint.parquet_Apache Spark_Pyspark_Pyspark Sql_Databricks_Pyspark Dataframes - Fatal编程技术网

Apache spark FileNotFoundException-delta_日志中缺少checkpoint.parquet

Apache spark FileNotFoundException-delta_日志中缺少checkpoint.parquet,apache-spark,pyspark,pyspark-sql,databricks,pyspark-dataframes,Apache Spark,Pyspark,Pyspark Sql,Databricks,Pyspark Dataframes,我有一些每天都在做的工作。不幸的是,其中一些有时会随机抛出异常: java.io.FileNotFoundException:_delta_log/00000000000070.checkpoint.parquet 问题是,这个错误不是恒定的,有时是作业抛出的,有时不是,因此寻找原因就像大海捞针 几个月前我遇到了一个类似的问题,我发现将Databricks运行时版本更新到5.5可以解决这个问题。当然,它解决了,但几个月后错误又回来了,我找不到任何合理的解决办法来防止它 是否有人必须强迫这个问题,

我有一些每天都在做的工作。不幸的是,其中一些有时会随机抛出异常:

java.io.FileNotFoundException:_delta_log/00000000000070.checkpoint.parquet

问题是,这个错误不是恒定的,有时是作业抛出的,有时不是,因此寻找原因就像大海捞针

几个月前我遇到了一个类似的问题,我发现将Databricks运行时版本更新到5.5可以解决这个问题。当然,它解决了,但几个月后错误又回来了,我找不到任何合理的解决办法来防止它

是否有人必须强迫这个问题,并找到一个解决方案如何防止它


我真的非常感谢任何建议和帮助

这看起来像是Databricks已知的暂时性问题,Databricks团队已经意识到了这一点

以下是Databricks团队建议的解决方法:

禁用日志清理。例如:

    %sql
ALTER TABLE 
SET TBLPROPERTIES (
  'delta.enableExpiredLogCleanup' = 'false',
)
确保在2天内生成超过2个检查点(换句话说,超过30个提交)

增加增量表属性“checkpointRetentionDuration”,并确保在此新的持续时间内,创建的检查点超过2个(换句话说,超过30个提交)。例如:

%sql
ALTER TABLE 
SET TBLPROPERTIES (
  'delta.checkpointRetentionDuration' = '7 days',
)
Databricks团队提供的修复方案是确保您不会再次遇到该问题。Databricks团队正在对此进行永久性修复