Amazon web services AWS Glue Crawler在S3上有1100万个文件失败

Amazon web services AWS Glue Crawler在S3上有1100万个文件失败,amazon-web-services,aws-glue,Amazon Web Services,Aws Glue,S3中有1100多万个json文件 尝试爬网并将它们分类到AWS胶水 JSON文件详细信息: BENCHMARK : Running Start Crawl for Crawler impall ERROR : Internal Service Exception BENCHMARK : Crawler has finished running and is in state READY 每个未压缩文件大小从250KB到2MB 日志: BENCHMARK : Running Start Cra

S3中有1100多万个json文件

尝试爬网并将它们分类到AWS胶水

JSON文件详细信息:

BENCHMARK : Running Start Crawl for Crawler impall
ERROR : Internal Service Exception
BENCHMARK : Crawler has finished running and is in state READY
每个未压缩文件大小从250KB到2MB

日志:

BENCHMARK : Running Start Crawl for Crawler impall
ERROR : Internal Service Exception
BENCHMARK : Crawler has finished running and is in state READY

在处理这些大文件时,我是否遗漏了任何步骤?

S3+Glue Crawler在处理大量小文件时性能不佳

您可以做的是创建一个附加JSON文件的方法,这样您的文件就少了,但每个文件的大小都更大。这将使您的胶水爬虫能够完成

以下体系结构可以提供帮助:

S3 > Lambda > Firehose > S3 > Glue Crawler
  • 在包含所有JSON文件的s3存储桶上放置一个触发lambda的s3事件
  • 触发lambda后,读取json文件并将其发送到您创建的消防软管的端点
  • Firehose配置为等待x秒,直到连接的文件达到大小阈值,然后再将结果转储回S3。如果你使用表格数据
  • ,考虑将结果倾倒到类似拼花的柱状格式。
  • 一旦所有json文件都通过Firehose,您就可以触发胶水爬虫

这可能与您使用的代码有关,例如,如果您将读取的每个文件都保存在内存中。你能在这里发布相关的代码吗?这里没有与爬行相关的代码,因为它的职责是爬行S3 bucket或S3 bucket路径,并将元数据填充到AWS Glue中。你在问什么代码?联系了AWS Glue支持,他们不知道如何解决可伸缩性问题,问题是AWS Glue无法处理来自S3的大量文件。我也有同样的问题。在将JSON文件发送到S3之前,我将尝试使用Kinesis Firehose对JSON文件进行分组,但在某个时间点,我认为我会再次达到限制(我不确定文件计数的限制是多少)。嘿,伙计们,你们是如何处理这个一般错误的?