Amazon web services AWS胶水爬虫-读取csv的gzip文件

Amazon web services AWS胶水爬虫-读取csv的gzip文件,amazon-web-services,aws-glue,Amazon Web Services,Aws Glue,你能帮我用Glue Data crawler阅读tar.gz文件吗?我有一个tar.gz文件,其中包含S3中不同模式的两个文件,当我尝试运行爬虫程序时,在数据目录中看不到模式。我们应该使用自定义分类器吗?AWS Glue FAQ指定使用分类器支持gzip,但是没有列在Glue分类器部分提供的分类器列表中。您可以使用lambda解压缩文件,然后使用crawler根据Glue crawler内置分类器的官方AWS文档,此功能应100%受支持且透明 内置了用gzip压缩的csv格式 但是,如果AWS

你能帮我用Glue Data crawler阅读tar.gz文件吗?我有一个tar.gz文件,其中包含S3中不同模式的两个文件,当我尝试运行爬虫程序时,在数据目录中看不到模式。我们应该使用自定义分类器吗?AWS Glue FAQ指定使用分类器支持gzip,但是没有列在Glue分类器部分提供的分类器列表中。

您可以使用lambda解压缩文件,然后使用crawler

根据Glue crawler内置分类器的官方AWS文档,此功能应100%受支持且透明

内置了用gzip压缩的csv格式


但是,如果AWS支持无法按照您的描述工作,我建议您联系AWS支持。

您是否检查了爬虫程序是否能够解析文件本身?只需从原始文件创建一个带有几行的示例文件,然后运行爬虫程序,看看它是否可以推断出模式。如果没有,您可能需要一个自定义分类器。它特别适用于空格分隔的文本文件。如果你同意的话,你也可以在这里粘贴一些示例行。

好的,我看不出答案,那么我们可以使用lambda函数在不同的s3位置解压/解压文件,并将其指向粘合数据爬虫吗?如果还有其他简单的方法,我将不胜感激?如果是这样,您需要单独gzip文件。@Yuva-您找到解决方案了吗(glue的直接支持),而不是使用lambda?这是我在上面的评论中已经提到的,我正在寻找一个答案,是否可以直接在glue-Data crawlers中实现?在AWS文档部分提到使用自定义分类器处理压缩文件,但我找不到任何用于创建用于gzip处理的自定义分类器的示例或过程。当前分类器使用Grok模式,无法使用分类器解压缩数据。gzip(.gz)与爬虫一起工作。但是您有.tar.gz,爬虫程序无法识别它。