Amazon web services AWS Glue Crawler在S3上有1100万个文件失败
S3中有1100多万个json文件 尝试爬网并将它们分类到AWS胶水 JSON文件详细信息:Amazon web services AWS Glue Crawler在S3上有1100万个文件失败,amazon-web-services,aws-glue,Amazon Web Services,Aws Glue,S3中有1100多万个json文件 尝试爬网并将它们分类到AWS胶水 JSON文件详细信息: BENCHMARK : Running Start Crawl for Crawler impall ERROR : Internal Service Exception BENCHMARK : Crawler has finished running and is in state READY 每个未压缩文件大小从250KB到2MB 日志: BENCHMARK : Running Start Cra
BENCHMARK : Running Start Crawl for Crawler impall
ERROR : Internal Service Exception
BENCHMARK : Crawler has finished running and is in state READY
每个未压缩文件大小从250KB到2MB
日志:
BENCHMARK : Running Start Crawl for Crawler impall
ERROR : Internal Service Exception
BENCHMARK : Crawler has finished running and is in state READY
在处理这些大文件时,我是否遗漏了任何步骤?S3+Glue Crawler在处理大量小文件时性能不佳 您可以做的是创建一个附加JSON文件的方法,这样您的文件就少了,但每个文件的大小都更大。这将使您的胶水爬虫能够完成 以下体系结构可以提供帮助:
S3 > Lambda > Firehose > S3 > Glue Crawler
- 在包含所有JSON文件的s3存储桶上放置一个触发lambda的s3事件
- 触发lambda后,读取json文件并将其发送到您创建的消防软管的端点
- Firehose配置为等待x秒,直到连接的文件达到大小阈值,然后再将结果转储回S3。如果你使用表格数据 ,考虑将结果倾倒到类似拼花的柱状格式。
- 一旦所有json文件都通过Firehose,您就可以触发胶水爬虫