Amazon web services 配置爬虫为s3中不同格式的每个文件夹创建表

Amazon web services 配置爬虫为s3中不同格式的每个文件夹创建表,amazon-web-services,amazon-s3,aws-glue,Amazon Web Services,Amazon S3,Aws Glue,我的s3桶是s型的 bucket_name/ test1/ part01 part02 manifest test2/ part01 part02 part03 manifest test3/ part01 part02 manifest 我想使用glue中的爬虫创建三个表:test01、test02、test03 问题是清单文件是json格式,其他文件是CSV格式(所有部分都具有相同的模式

我的s3桶是s型的

bucket_name/
  test1/
      part01
      part02
      manifest
  test2/
    part01
    part02
    part03
    manifest
  test3/
    part01
    part02
    manifest
我想使用glue中的爬虫创建三个表:test01、test02、test03 问题是清单文件是json格式,其他文件是CSV格式(所有部分都具有相同的模式)。 因此,当我创建一个爬虫程序时,它会为每个文件part01、part02创建表

我试图更改crawler的exclude选项,以排除清单文件,但无效

我是否需要创建作业来将所有零件文件转换为拼花地板并删除清单文件