Amazon web services AWS胶水爬虫-读取csv的gzip文件_Amazon Web Services_Aws Glue

Amazon web services AWS胶水爬虫-读取csv的gzip文件

amazon-web-services

Amazon web services AWS胶水爬虫-读取csv的gzip文件,amazon-web-services,aws-glue,Amazon Web Services,Aws Glue,你能帮我用Glue Data crawler阅读tar.gz文件吗？我有一个tar.gz文件，其中包含S3中不同模式的两个文件，当我尝试运行爬虫程序时，在数据目录中看不到模式。我们应该使用自定义分类器吗？AWS Glue FAQ指定使用分类器支持gzip，但是没有列在Glue分类器部分提供的分类器列表中。您可以使用lambda解压缩文件，然后使用crawler根据Glue crawler内置分类器的官方AWS文档，此功能应100%受支持且透明内置了用gzip压缩的csv格式但是，如果AWS

你能帮我用Glue Data crawler阅读tar.gz文件吗？我有一个tar.gz文件，其中包含S3中不同模式的两个文件，当我尝试运行爬虫程序时，在数据目录中看不到模式。我们应该使用自定义分类器吗？AWS Glue FAQ指定使用分类器支持gzip，但是没有列在Glue分类器部分提供的分类器列表中。

您可以使用lambda解压缩文件，然后使用crawler

根据Glue crawler内置分类器的官方AWS文档，此功能应100%受支持且透明

内置了用gzip压缩的csv格式

但是，如果AWS支持无法按照您的描述工作，我建议您联系AWS支持。

您是否检查了爬虫程序是否能够解析文件本身？只需从原始文件创建一个带有几行的示例文件，然后运行爬虫程序，看看它是否可以推断出模式。如果没有，您可能需要一个自定义分类器。它特别适用于空格分隔的文本文件。如果你同意的话，你也可以在这里粘贴一些示例行。

好的，我看不出答案，那么我们可以使用lambda函数在不同的s3位置解压/解压文件，并将其指向粘合数据爬虫吗？如果还有其他简单的方法，我将不胜感激？如果是这样，您需要单独gzip文件。@Yuva-您找到解决方案了吗（glue的直接支持），而不是使用lambda？这是我在上面的评论中已经提到的，我正在寻找一个答案，是否可以直接在glue-Data crawlers中实现？在AWS文档部分提到使用自定义分类器处理压缩文件，但我找不到任何用于创建用于gzip处理的自定义分类器的示例或过程。当前分类器使用Grok模式，无法使用分类器解压缩数据。gzip（.gz）与爬虫一起工作。但是您有.tar.gz，爬虫程序无法识别它。