Amazon web services AWS胶水爬虫和存储在S3中的大型表

Amazon web services AWS胶水爬虫和存储在S3中的大型表,amazon-web-services,amazon-s3,amazon-redshift,amazon-athena,aws-glue,Amazon Web Services,Amazon S3,Amazon Redshift,Amazon Athena,Aws Glue,我有一些关于AWS胶水及其爬虫的一般性问题。我将一些数据流放入S3存储桶中,并使用AWS Athena作为红移中的外部表访问它们。 表按小时进行分区,一些胶水爬虫每小时更新分区和表结构 问题是爬虫程序花费的时间越来越长,总有一天它们不会在一个小时内完成。 在AWS Glue中是否有一些设置来加速此过程,或者是否有一些合适的爬虫程序替代方案?不幸的是,Glue爬虫程序没有用于调整性能的配置选项。然而,据我所知,AWS Glue团队应该发布一项显著提高爬虫性能的功能,但我不知道发布日期 通常,在数据

我有一些关于AWS胶水及其爬虫的一般性问题。我将一些数据流放入S3存储桶中,并使用AWS Athena作为红移中的外部表访问它们。 表按小时进行分区,一些胶水爬虫每小时更新分区和表结构

问题是爬虫程序花费的时间越来越长,总有一天它们不会在一个小时内完成。
在AWS Glue中是否有一些设置来加速此过程,或者是否有一些合适的爬虫程序替代方案?

不幸的是,Glue爬虫程序没有用于调整性能的配置选项。然而,据我所知,AWS Glue团队应该发布一项显著提高爬虫性能的功能,但我不知道发布日期

通常,在数据目录中注册新分区的方法很少:


最有效的方法是手动添加分区3或4。因此,如果您知道何时以及哪些新分区应该注册,那么您可以设置一个lambda函数来调用Athena或Glue API。lambda本身可能由SNS或CloudWatch事件触发。

不幸的是,Glue爬虫没有配置选项来调整性能。然而,据我所知,AWS Glue团队应该发布一项显著提高爬虫性能的功能,但我不知道发布日期

通常,在数据目录中注册新分区的方法很少:


最有效的方法是手动添加分区3或4。因此,如果您知道何时以及哪些新分区应该注册,那么您可以设置一个lambda函数来调用Athena或Glue API。lambda本身可能由SNS或CloudWatch事件触发。

如果MSCK REPAIR TABLE命令长时间运行,则此问题可能与s3问题有关。我有类似的问题,但我还没有解决它。如果MSCK REPAIR TABLE命令长时间运行,这个问题可能与s3问题有关。我有类似的问题,但我还没有解决它。thx,3,4似乎对我来说也是最实际的选择。遗憾的是,aws没有提供一个完全管理的快速选项TX,3,4对我来说似乎也是最实用的选项。遗憾的是,aws没有提供完全管理的fast选项