Amazon web services AWS胶水跳过文件夹

Amazon web services AWS胶水跳过文件夹,amazon-web-services,hive,aws-glue,amazon-redshift-spectrum,Amazon Web Services,Hive,Aws Glue,Amazon Redshift Spectrum,我有一个过程,将数据存储到S3,转换数据,并将数据转换为拼花地板,通过红移光谱进行查询。我有一个胶水爬虫来爬网我的数据集,我使用三个分区:年、月、日。我所有的文件都是这样存储的: <bucket>/<folder>/<folder>/<folder>/year=2018/month=8/day=20 ///年=2018/月=8/日=20 我有从2015年到最后一天的数据,这给了我1300多个分区键 问题就在这里。因为几天前我开始从爬虫上看到这条

我有一个过程,将数据存储到S3,转换数据,并将数据转换为拼花地板,通过红移光谱进行查询。我有一个胶水爬虫来爬网我的数据集,我使用三个分区:年、月、日。我所有的文件都是这样存储的:

<bucket>/<folder>/<folder>/<folder>/year=2018/month=8/day=20
///年=2018/月=8/日=20
我有从2015年到最后一天的数据,这给了我1300多个分区键

问题就在这里。因为几天前我开始从爬虫上看到这条消息:

INFO : Folder partition keys do not match table partition keys, skipped folder: <bucket>/<folder>/<folder>/<folder>/year=2018/month=8/
INFO:文件夹分区键与表分区键不匹配,跳过文件夹://///year=2018/month=8/
其结果是2018年8月查询本月时没有返回任何数据,这当然是非常不幸的

由于我所有的数据都作为同一ETL过程的一部分存储在同一个结构中,并且在爬网失败之前,该过程中没有任何内容,所以我对爬网程序为什么突然开始跳过最后一个月(月=8)感到非常困惑。对于month=8,我已经检查并查看了表分区和文件夹分区之间是否有任何差异,但我找不到任何差异


这是一个longshot,但是有人对为什么会发生这种情况有任何意见吗?

在crawler中如何配置源位置?它指向///吗?您是否尝试删除现有表并允许爬虫程序重新创建它?或者只需将爬虫程序配置为在另一个数据库中创建表,以便您可以比较两个模式。我已尝试删除该表并重新爬网。同样的行为。从昨天开始,我发现过去三天的数据造成了问题。如果我排除这三天之前的所有数据,它将按预期工作。如果我在过去的三天里独自爬行,它会像预期的那样工作。然后我创建了两个爬虫程序,一个在有问题的日期之前抓取数据,另一个在有问题的日期之后抓取数据。它没有解决根本问题,但至少我现在没有丢失数据。我将开始比较模式。我也看过这段视频:高级产品经理AWS Glue Prajakta Damle解释了模式是如何基于相似性进行合并的。如果相似性为70%或更高,则合并模式。让我困惑的是,爬虫会一起跳过文件夹。至少我希望它用另一个模式创建了一个新表。在其中一页的末尾有一条关于爬虫的评论,它扫描了前2MB的文件并基于此确定模式。这可能在某种程度上也会影响分区恢复。当您在爬虫程序中配置多个路径(3天之前和之后)时,是否尝试在爬虫程序中启用“为每个S3路径创建单个架构”选项?