Amazon s3 粘合爬虫程序无法排除.csv.metadata文件

Amazon s3 粘合爬虫程序无法排除.csv.metadata文件,amazon-s3,aws-glue,aws-glue-data-catalog,Amazon S3,Aws Glue,Aws Glue Data Catalog,我有一个S3位置S3://bucket name/folder name/,它由一个子文件夹组成,该子文件夹的名称是动态生成的,其中包含短语\u Top10InvoiceIds。此子文件夹由.csv和.csv.metadata文件组成。我使用胶水爬虫只抓取csv文件,并在雅典娜查看它们。但是我无法排除.csv.metadata文件。我尝试了所有可能的正则表达式模式作为glob值 我的一些尝试是: *\u TOP10InvoiceId/*.metadata *\u TOP10InvoiceId/*

我有一个S3位置
S3://bucket name/folder name/
,它由一个子文件夹组成,该子文件夹的名称是动态生成的,其中包含短语
\u Top10InvoiceIds
。此子文件夹由
.csv
.csv.metadata
文件组成。我使用胶水爬虫只抓取csv文件,并在雅典娜查看它们。但是我无法排除
.csv.metadata
文件。我尝试了所有可能的正则表达式模式作为glob值

我的一些尝试是:

  • *\u TOP10InvoiceId/*.metadata
  • *\u TOP10InvoiceId/*.*元数据
  • *\u Top10InvoiceId/*.*。元数据
  • *\u TOP10InvoiceId/*.csv.metadata
  • **.元数据
  • *.元数据
  • *.csv.metadata
  • */*.元数据

  • 如果有人能帮我找出模式或建议另一种方法,那就太好了。

    尝试使用
    ***.csv.metadata
    ***.metadata
    排除模式

    听起来您试图通过在Glue中使用排除来阻止.metadata文件在Athena表中显示为数据爬虫

    粘合爬虫用于为所述表创建表定义和相关元数据。在将数据填充到表中方面,这就是雅典娜:

    爬虫

    连接到数据存储(源或目标)的程序可通过 按优先级排序的分类器列表,用于确定数据的模式, 然后在AWS Glue数据目录中创建元数据表

    Athena中的表获取您在include模式中列出的bucket路径下的所有数据:

    重要

    雅典娜读取存储在“s3://bucketname/prefix/”下的所有数据。如果你有 您不希望雅典娜读取的数据,请不要将该数据存储在同一数据库中 Amazon S3前缀是希望Athena读取的数据。如果你正在利用 分区,为了确保Athena扫描分区内的数据,您的WHERE过滤器 必须包含分区。有关更多信息,请参见表位置和位置 分区


    我认为,如果要从表中排除数据,它将需要自己的子文件夹

    雅典娜不会排除模式。这些模式仅用于排除爬网时不希望扫描的非必需文件,以及用于Glue ETL。因此,如果要排除这些.metadata文件,则需要编写自动脚本来删除它们