Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/amazon-s3/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Amazon web services Glue crawler从一个分区的S3存储桶创建了多个表_Amazon Web Services_Amazon S3_Aws Glue - Fatal编程技术网

Amazon web services Glue crawler从一个分区的S3存储桶创建了多个表

Amazon web services Glue crawler从一个分区的S3存储桶创建了多个表,amazon-web-services,amazon-s3,aws-glue,Amazon Web Services,Amazon S3,Aws Glue,我有一个S3存储桶,其结构如下: root/ ├── year=2020/ │ └── month=01 │ ├── day=01 | | ├── file1.log | | ├── ... | | └── file8.log │ ├── day=... │ └── day=31 | ├── file1.log | ├── ... |

我有一个S3存储桶,其结构如下:

root/
├── year=2020/
│   └── month=01
│       ├── day=01 
|       |     ├──  file1.log
|       |     ├──  ...
|       |     └──  file8.log
│       ├── day=...
│       └── day=31 
|             ├──  file1.log
|             ├──  ...
|             └──  file8.log
└── year=2019/
        ├── ...
每天将有8个文件,这些文件在几天内具有相同的名称─ 在每个“日”文件夹中都会有一个
file1.log
。我用一个自定义分类器爬过了这个桶

预期行为:Glue将创建一个表,其中年、月和日作为分区字段,以及我在自定义分类器中描述的其他几个字段。然后,我可以在作业脚本中使用该表

实际行为

1) Glue创建了一张满足我期望的桌子。然而,当我试图在作业脚本中访问它时,表中没有列

2) Glue为每个“日”分区创建一个表,为每个
file.log
文件创建8个表

我试着排除
**u SUCCESS
**crc
,就像人们在另一个问题上建议的那样:但是,它似乎不起作用。我还选中了爬虫程序设置中的“为每个S3路径创建单个模式”选项。它仍然不起作用


我遗漏了什么?

您应该在根目录下有一个文件夹(例如客户),其中应该有分区子文件夹。如果您有S3存储桶级别的分区,它将不会创建一个表