Amazon web services 如何在我的CF模板中设置胶水爬虫重新爬网策略

Amazon web services 如何在我的CF模板中设置胶水爬虫重新爬网策略,amazon-web-services,amazon-cloudformation,aws-glue,Amazon Web Services,Amazon Cloudformation,Aws Glue,我想将我的胶水爬虫设置为只爬网s3存储桶中的新文件夹。根据文档,看起来我想将RecrawlBehavior设置为。但是我找不到任何关于如何在CloudFormation模板中实现这一点的指导 这是我的爬虫程序现在的配置属性,但我对RecrawlBehavior的使用无效: Configuration: "{\"Version\":1.0,\"RecrawlBehavior\":\"CRAWL_NEW_FOLDERS_ONLY\"

我想将我的胶水爬虫设置为只爬网s3存储桶中的新文件夹。根据文档,看起来我想将RecrawlBehavior设置为。但是我找不到任何关于如何在CloudFormation模板中实现这一点的指导

这是我的爬虫程序现在的配置属性,但我对RecrawlBehavior的使用无效:

Configuration: "{\"Version\":1.0,\"RecrawlBehavior\":\"CRAWL_NEW_FOLDERS_ONLY\",\"CrawlerOutput\":{\"Partitions\":{\"AddOrUpdateBehavior\":\"InheritFromTable\"},\"Tables\":{\"AddOrUpdateBehavior\":\"MergeNewColumns\"}}}"

据我所知,增量策略在Glue中是一个相对较新的功能,在云形成中还不受支持

我建议克服此限制的一种解决方法是使用cloudformation创建爬虫程序,然后使用AWS CLI更新其RecrawlPolicy属性

当您使用cloudformation创建爬网程序并尝试使用CLI检索其属性时,RecrawlPolicy“已将”RecrawlBehavior“设置为”CRAWL_EVERYTHING“。您可以使用以下命令将其更改为增量爬网(仅爬网新文件夹)

aws胶水更新爬虫程序 --名字 --重新爬网策略“{”重新爬网行为“:“仅爬网新文件夹”}” --架构更改策略“{”UpdateBehavior:“日志”,“DeleteBehavior:“日志”}”
aws glue update-crawler 
    --name <crawlername> 
    --recrawl-policy '{"RecrawlBehavior": "CRAWL_NEW_FOLDERS_ONLY"}' 
    --schema-change-policy '{"UpdateBehavior":"LOG","DeleteBehavior":"LOG"}'