Apache spark Glue Crawler能否抓取deltalake文件以在aws Glue目录中创建表?
我们有一个现有的基础设施,通过aws爬虫程序对S3目录进行爬网。这些S3目录作为AWS datalake的一部分创建,并通过spark作业转储。 现在为了实现delta特性,我们在deltalake上做了一个POC。因此,当我通过spark delta作业在S3中编写这些deltalake文件时,我的爬虫程序无法从这些爬虫程序创建表 我们可以使用AWS爬虫程序对delta lake文件进行爬网吗?因此,您不应该使用Glue crawler。您应该使用清单文件对Athena的delta文件进行爬网 警告 不要使用AWS Glue Crawler在要 在AWS Glue中定义表格。Delta Lake维护相应的文件 添加到表的多个版本,并查询已爬网的所有文件 使用胶水会产生不正确的结果Apache spark Glue Crawler能否抓取deltalake文件以在aws Glue目录中创建表?,apache-spark,aws-glue,delta-lake,aws-glue-data-catalog,data-lake,Apache Spark,Aws Glue,Delta Lake,Aws Glue Data Catalog,Data Lake,我们有一个现有的基础设施,通过aws爬虫程序对S3目录进行爬网。这些S3目录作为AWS datalake的一部分创建,并通过spark作业转储。 现在为了实现delta特性,我们在deltalake上做了一个POC。因此,当我通过spark delta作业在S3中编写这些deltalake文件时,我的爬虫程序无法从这些爬虫程序创建表 我们可以使用AWS爬虫程序对delta lake文件进行爬网吗?因此,您不应该使用Glue crawler。您应该使用清单文件对Athena的delta文件进行爬网
我相信delta lake锉刀只是拼花锉刀。您是否可以验证爬虫程序的IAM角色是否对此文件具有读取权限,以及在向S3写入时,如果delta lake不拥有已验证的bucket Yepp,请确保您正在授予bucket owner控制权。我也知道这些s3文件是拼花地板。但是,当我尝试对这些文件进行爬网时,会发生什么情况呢。现在我在雅典娜检查了这些表,bam这些增量文件有0行。这就是问题所在。您可以自己试试。show create table语句输出包含什么?位置是否指向文件夹或文件?如果是文件,则需要通过将这些拼花地板文件保存在单独的文件夹中来对其进行爬网,然后将父路径传递给爬网器,爬网器将创建具有不同模式和位置的表,这些表指向文件夹而不是文件。这真的很有帮助。