Amazon web services AWS胶水爬虫和存储在S3中的大型表_Amazon Web Services_Amazon S3_Amazon Redshift_Amazon Athena_Aws Glue

Amazon web services AWS胶水爬虫和存储在S3中的大型表

amazon-web-services amazon-s3 amazon-redshift

Amazon web services AWS胶水爬虫和存储在S3中的大型表,amazon-web-services,amazon-s3,amazon-redshift,amazon-athena,aws-glue,Amazon Web Services,Amazon S3,Amazon Redshift,Amazon Athena,Aws Glue,我有一些关于AWS胶水及其爬虫的一般性问题。我将一些数据流放入S3存储桶中，并使用AWS Athena作为红移中的外部表访问它们。表按小时进行分区，一些胶水爬虫每小时更新分区和表结构问题是爬虫程序花费的时间越来越长，总有一天它们不会在一个小时内完成。在AWS Glue中是否有一些设置来加速此过程，或者是否有一些合适的爬虫程序替代方案？不幸的是，Glue爬虫程序没有用于调整性能的配置选项。然而，据我所知，AWS Glue团队应该发布一项显著提高爬虫性能的功能，但我不知道发布日期通常，在数据

我有一些关于AWS胶水及其爬虫的一般性问题。我将一些数据流放入S3存储桶中，并使用AWS Athena作为红移中的外部表访问它们。表按小时进行分区，一些胶水爬虫每小时更新分区和表结构

问题是爬虫程序花费的时间越来越长，总有一天它们不会在一个小时内完成。

在AWS Glue中是否有一些设置来加速此过程，或者是否有一些合适的爬虫程序替代方案？

不幸的是，Glue爬虫程序没有用于调整性能的配置选项。然而，据我所知，AWS Glue团队应该发布一项显著提高爬虫性能的功能，但我不知道发布日期

通常，在数据目录中注册新分区的方法很少：

最有效的方法是手动添加分区3或4。因此，如果您知道何时以及哪些新分区应该注册，那么您可以设置一个lambda函数来调用Athena或Glue API。lambda本身可能由SNS或CloudWatch事件触发。

不幸的是，Glue爬虫没有配置选项来调整性能。然而，据我所知，AWS Glue团队应该发布一项显著提高爬虫性能的功能，但我不知道发布日期

通常，在数据目录中注册新分区的方法很少：

如果MSCK REPAIR TABLE命令长时间运行，则此问题可能与s3问题有关。我有类似的问题，但我还没有解决它。如果MSCK REPAIR TABLE命令长时间运行，这个问题可能与s3问题有关。我有类似的问题，但我还没有解决它。thx，3，4似乎对我来说也是最实际的选择。遗憾的是，aws没有提供一个完全管理的快速选项TX，3,4对我来说似乎也是最实用的选项。遗憾的是，aws没有提供完全管理的fast选项