Amazon web services AWS在子级创建表_Amazon Web Services_Amazon S3_Aws Glue_Aws Glue Data Catalog

Amazon web services AWS在子级创建表

amazon-web-services amazon-s3

Amazon web services AWS在子级创建表,amazon-web-services,amazon-s3,aws-glue,aws-glue-data-catalog,Amazon Web Services,Amazon S3,Aws Glue,Aws Glue Data Catalog,我在S3木桶中的拼花文件文件夹结构如下： Parent ------- child -------------- date partition 1 -------------------------------- parquet file 1 -------------------------------- parquet file 2 -------------- date partition 2 -------------------------------- parquet file 3

我在S3木桶中的拼花文件文件夹结构如下：

Parent
------- child
-------------- date partition 1
-------------------------------- parquet file 1
-------------------------------- parquet file 2

-------------- date partition 2
-------------------------------- parquet file 3
-------------------------------- parquet file 4

“父”目录中始终只有一个“子”文件夹。我的S3目标路径指向“子”文件夹，因为分区的数量可能会随时间增加/减少。然而，Glue创建了一个名为“Parent”的表，它有两个分区——“child”文件夹和日期分区。这是意外的，因为“child”不是分区，并且S3路径已经指向子目录

到目前为止，Glue crawler没有为S3目标指定类似正则表达式的路径的选项。我也研究了爬虫的分类器，但这似乎是一种描述拼花地板文件中数据的方法，它本身与路径无关。除了更改文件夹结构之外，还有什么办法解决这个问题吗？

你能在这里发布你的爬虫程序配置吗？Glue console中的预期和实际表定义是什么？@prabhakarredy位置是/path/to/parent/（这是预期的），列名也按预期进行解析。但是，子文件夹在PartitionKeys列表中标识为一个值。不应该是这样。日期分区文件夹是否使用“=”约定命名？例如，日期=20200101。如果不是，你可能想考虑一下。爬虫程序的S3目标路径是否以正斜杠结束？如果没有，请确保它有。