Amazon web services AWS胶水跳过文件夹_Amazon Web Services_Hive_Aws Glue_Amazon Redshift Spectrum

Amazon web services AWS胶水跳过文件夹

amazon-web-services hive

Amazon web services AWS胶水跳过文件夹,amazon-web-services,hive,aws-glue,amazon-redshift-spectrum,Amazon Web Services,Hive,Aws Glue,Amazon Redshift Spectrum,我有一个过程，将数据存储到S3，转换数据，并将数据转换为拼花地板，通过红移光谱进行查询。我有一个胶水爬虫来爬网我的数据集，我使用三个分区：年、月、日。我所有的文件都是这样存储的： <bucket>/<folder>/<folder>/<folder>/year=2018/month=8/day=20 ///年=2018/月=8/日=20 我有从2015年到最后一天的数据，这给了我1300多个分区键问题就在这里。因为几天前我开始从爬虫上看到这条

我有一个过程，将数据存储到S3，转换数据，并将数据转换为拼花地板，通过红移光谱进行查询。我有一个胶水爬虫来爬网我的数据集，我使用三个分区：年、月、日。我所有的文件都是这样存储的：

<bucket>/<folder>/<folder>/<folder>/year=2018/month=8/day=20

///年=2018/月=8/日=20

我有从2015年到最后一天的数据，这给了我1300多个分区键

问题就在这里。因为几天前我开始从爬虫上看到这条消息：

INFO : Folder partition keys do not match table partition keys, skipped folder: <bucket>/<folder>/<folder>/<folder>/year=2018/month=8/

INFO:文件夹分区键与表分区键不匹配，跳过文件夹：/////year=2018/month=8/

其结果是2018年8月查询本月时没有返回任何数据，这当然是非常不幸的

由于我所有的数据都作为同一ETL过程的一部分存储在同一个结构中，并且在爬网失败之前，该过程中没有任何内容，所以我对爬网程序为什么突然开始跳过最后一个月（月=8）感到非常困惑。对于month=8，我已经检查并查看了表分区和文件夹分区之间是否有任何差异，但我找不到任何差异

这是一个longshot，但是有人对为什么会发生这种情况有任何意见吗？

在crawler中如何配置源位置？它指向///吗？您是否尝试删除现有表并允许爬虫程序重新创建它？或者只需将爬虫程序配置为在另一个数据库中创建表，以便您可以比较两个模式。我已尝试删除该表并重新爬网。同样的行为。从昨天开始，我发现过去三天的数据造成了问题。如果我排除这三天之前的所有数据，它将按预期工作。如果我在过去的三天里独自爬行，它会像预期的那样工作。然后我创建了两个爬虫程序，一个在有问题的日期之前抓取数据，另一个在有问题的日期之后抓取数据。它没有解决根本问题，但至少我现在没有丢失数据。我将开始比较模式。我也看过这段视频：高级产品经理AWS Glue Prajakta Damle解释了模式是如何基于相似性进行合并的。如果相似性为70%或更高，则合并模式。让我困惑的是，爬虫会一起跳过文件夹。至少我希望它用另一个模式创建了一个新表。在其中一页的末尾有一条关于爬虫的评论，它扫描了前2MB的文件并基于此确定模式。这可能在某种程度上也会影响分区恢复。当您在爬虫程序中配置多个路径（3天之前和之后）时，是否尝试在爬虫程序中启用“为每个S3路径创建单个架构”选项？