Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/amazon-s3/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Amazon web services AWS在子级创建表_Amazon Web Services_Amazon S3_Aws Glue_Aws Glue Data Catalog - Fatal编程技术网

Amazon web services AWS在子级创建表

Amazon web services AWS在子级创建表,amazon-web-services,amazon-s3,aws-glue,aws-glue-data-catalog,Amazon Web Services,Amazon S3,Aws Glue,Aws Glue Data Catalog,我在S3木桶中的拼花文件文件夹结构如下: Parent ------- child -------------- date partition 1 -------------------------------- parquet file 1 -------------------------------- parquet file 2 -------------- date partition 2 -------------------------------- parquet file 3

我在S3木桶中的拼花文件文件夹结构如下:

Parent
------- child
-------------- date partition 1
-------------------------------- parquet file 1
-------------------------------- parquet file 2

-------------- date partition 2
-------------------------------- parquet file 3
-------------------------------- parquet file 4
“父”目录中始终只有一个“子”文件夹。我的S3目标路径指向“子”文件夹,因为分区的数量可能会随时间增加/减少。然而,Glue创建了一个名为“Parent”的表,它有两个分区——“child”文件夹和日期分区。这是意外的,因为“child”不是分区,并且S3路径已经指向子目录


到目前为止,Glue crawler没有为S3目标指定类似正则表达式的路径的选项。我也研究了爬虫的分类器,但这似乎是一种描述拼花地板文件中数据的方法,它本身与路径无关。除了更改文件夹结构之外,还有什么办法解决这个问题吗?

你能在这里发布你的爬虫程序配置吗?Glue console中的预期和实际表定义是什么?@prabhakarredy位置是/path/to/parent/(这是预期的),列名也按预期进行解析。但是,子文件夹在PartitionKeys列表中标识为一个值。不应该是这样。日期分区文件夹是否使用“=”约定命名?例如,日期=20200101。如果不是,你可能想考虑一下。爬虫程序的S3目标路径是否以正斜杠结束?如果没有,请确保它有。