Amazon web services 配置爬虫为s3中不同格式的每个文件夹创建表
我的s3桶是s型的Amazon web services 配置爬虫为s3中不同格式的每个文件夹创建表,amazon-web-services,amazon-s3,aws-glue,Amazon Web Services,Amazon S3,Aws Glue,我的s3桶是s型的 bucket_name/ test1/ part01 part02 manifest test2/ part01 part02 part03 manifest test3/ part01 part02 manifest 我想使用glue中的爬虫创建三个表:test01、test02、test03 问题是清单文件是json格式,其他文件是CSV格式(所有部分都具有相同的模式
bucket_name/
test1/
part01
part02
manifest
test2/
part01
part02
part03
manifest
test3/
part01
part02
manifest
我想使用glue中的爬虫创建三个表:test01、test02、test03
问题是清单文件是json格式,其他文件是CSV格式(所有部分都具有相同的模式)。
因此,当我创建一个爬虫程序时,它会为每个文件part01、part02创建表
我试图更改crawler的exclude选项,以排除清单文件,但无效
我是否需要创建作业来将所有零件文件转换为拼花地板并删除清单文件