Amazon s3 如何修复AWS S3上损坏的delta lake table
我最终手动删除了一些delta lake条目(托管在S3上)。 现在我的spark作业失败了,因为增量事务日志指向文件系统中不存在的文件。 我遇到了这个Amazon s3 如何修复AWS S3上损坏的delta lake table,amazon-s3,delta-lake,fsck,Amazon S3,Delta Lake,Fsck,我最终手动删除了一些delta lake条目(托管在S3上)。 现在我的spark作业失败了,因为增量事务日志指向文件系统中不存在的文件。 我遇到了这个 但我不确定在我的情况下应该如何运行此实用程序。您可以根据所附文档轻松地执行此操作 如果您的S3上有蜂巢表,我会按如下方式进行操作: %sql FSCK REPAIR TABLE schema.testtable DRY RUN 使用DRY RUN将列出需要删除的文件。您可以首先运行上述命令并验证实际需要删除的文件 一旦您验证了您可以运行实际的
但我不确定在我的情况下应该如何运行此实用程序。您可以根据所附文档轻松地执行此操作 如果您的S3上有蜂巢表,我会按如下方式进行操作:
%sql
FSCK REPAIR TABLE schema.testtable DRY RUN
使用DRY RUN
将列出需要删除的文件。您可以首先运行上述命令并验证实际需要删除的文件
一旦您验证了您可以运行实际的上述命令,而无需运行干运行
,并且它应该执行您需要的操作
%sql
FSCK REPAIR TABLE schema.testtable
现在,如果您还没有创建配置单元表,并且有一个包含文件的路径(增量表),那么您可以按如下方式执行操作:
%sql
FSCK REPAIR TABLE delta.`dbfs:/mnt/S3bucket/tables/testtable` DRY RUN
我是在databricks上做这件事的,并且已经将我的S3桶路径安装到databricks上。
您需要确保在delta.之后和实际路径之前有`符号,否则它将不起作用
在这里,为了执行实际的维修操作,您可以从上述命令中删除
干运行
,它应该完成您需要完成的工作。您可以按照所附文档轻松完成此操作
如果您的S3上有蜂巢表,我会按如下方式进行操作:
%sql
FSCK REPAIR TABLE schema.testtable DRY RUN
使用DRY RUN
将列出需要删除的文件。您可以首先运行上述命令并验证实际需要删除的文件
一旦您验证了您可以运行实际的上述命令,而无需运行干运行
,并且它应该执行您需要的操作
%sql
FSCK REPAIR TABLE schema.testtable
现在,如果您还没有创建配置单元表,并且有一个包含文件的路径(增量表),那么您可以按如下方式执行操作:
%sql
FSCK REPAIR TABLE delta.`dbfs:/mnt/S3bucket/tables/testtable` DRY RUN
我是在databricks上做这件事的,并且已经将我的S3桶路径安装到databricks上。
您需要确保在delta.之后和实际路径之前有`符号,否则它将不起作用
在这里,为了执行实际的维修操作,您可以从上述命令中删除干运行
,它应该完成您需要完成的工作