Amazon web services AWS Glue Crawler在S3上有1100万个文件失败_Amazon Web Services_Aws Glue

Amazon web services AWS Glue Crawler在S3上有1100万个文件失败

amazon-web-services

Amazon web services AWS Glue Crawler在S3上有1100万个文件失败,amazon-web-services,aws-glue,Amazon Web Services,Aws Glue,S3中有1100多万个json文件尝试爬网并将它们分类到AWS胶水 JSON文件详细信息： BENCHMARK : Running Start Crawl for Crawler impall ERROR : Internal Service Exception BENCHMARK : Crawler has finished running and is in state READY 每个未压缩文件大小从250KB到2MB 日志： BENCHMARK : Running Start Cra

S3中有1100多万个json文件

尝试爬网并将它们分类到AWS胶水

JSON文件详细信息：

BENCHMARK : Running Start Crawl for Crawler impall
ERROR : Internal Service Exception
BENCHMARK : Crawler has finished running and is in state READY

每个未压缩文件大小从250KB到2MB

日志：

BENCHMARK : Running Start Crawl for Crawler impall
ERROR : Internal Service Exception
BENCHMARK : Crawler has finished running and is in state READY

在处理这些大文件时，我是否遗漏了任何步骤？

S3+Glue Crawler在处理大量小文件时性能不佳

您可以做的是创建一个附加JSON文件的方法，这样您的文件就少了，但每个文件的大小都更大。这将使您的胶水爬虫能够完成

以下体系结构可以提供帮助：

S3 > Lambda > Firehose > S3 > Glue Crawler

在包含所有JSON文件的s3存储桶上放置一个触发lambda的s3事件
触发lambda后，读取json文件并将其发送到您创建的消防软管的端点
Firehose配置为等待x秒，直到连接的文件达到大小阈值，然后再将结果转储回S3。如果你使用表格数据
一旦所有json文件都通过Firehose，您就可以触发胶水爬虫

这可能与您使用的代码有关，例如，如果您将读取的每个文件都保存在内存中。你能在这里发布相关的代码吗？这里没有与爬行相关的代码，因为它的职责是爬行S3 bucket或S3 bucket路径，并将元数据填充到AWS Glue中。你在问什么代码？联系了AWS Glue支持，他们不知道如何解决可伸缩性问题，问题是AWS Glue无法处理来自S3的大量文件。我也有同样的问题。在将JSON文件发送到S3之前，我将尝试使用Kinesis Firehose对JSON文件进行分组，但在某个时间点，我认为我会再次达到限制（我不确定文件计数的限制是多少）。嘿，伙计们，你们是如何处理这个一般错误的？