Amazon s3 粘合爬虫程序无法排除.csv.metadata文件_Amazon S3_Aws Glue_Aws Glue Data Catalog

Amazon s3 粘合爬虫程序无法排除.csv.metadata文件

amazon-s3

Amazon s3 粘合爬虫程序无法排除.csv.metadata文件,amazon-s3,aws-glue,aws-glue-data-catalog,Amazon S3,Aws Glue,Aws Glue Data Catalog,我有一个S3位置S3://bucket name/folder name/，它由一个子文件夹组成，该子文件夹的名称是动态生成的，其中包含短语\u Top10InvoiceIds。此子文件夹由.csv和.csv.metadata文件组成。我使用胶水爬虫只抓取csv文件，并在雅典娜查看它们。但是我无法排除.csv.metadata文件。我尝试了所有可能的正则表达式模式作为glob值我的一些尝试是： *\u TOP10InvoiceId/*.metadata *\u TOP10InvoiceId/*

我有一个S3位置

S3://bucket name/folder name/

，它由一个子文件夹组成，该子文件夹的名称是动态生成的，其中包含短语

\u Top10InvoiceIds

。此子文件夹由

.csv

和

.csv.metadata

文件组成。我使用胶水爬虫只抓取csv文件，并在雅典娜查看它们。但是我无法排除

.csv.metadata

文件。我尝试了所有可能的正则表达式模式作为glob值

我的一些尝试是：

*\u TOP10InvoiceId/*.metadata

*\u TOP10InvoiceId/*.*元数据

*\u Top10InvoiceId/*.*。元数据

*\u TOP10InvoiceId/*.csv.metadata

**.元数据

*.元数据

*.csv.metadata

*/*.元数据

如果有人能帮我找出模式或建议另一种方法，那就太好了。

尝试使用

***.csv.metadata

或

***.metadata

排除模式

听起来您试图通过在Glue中使用排除来阻止.metadata文件在Athena表中显示为数据爬虫

粘合爬虫用于为所述表创建表定义和相关元数据。在将数据填充到表中方面，这就是雅典娜：

爬虫

连接到数据存储（源或目标）的程序可通过按优先级排序的分类器列表，用于确定数据的模式，然后在AWS Glue数据目录中创建元数据表

Athena中的表获取您在include模式中列出的bucket路径下的所有数据：

重要

雅典娜读取存储在“s3://bucketname/prefix/”下的所有数据。如果你有您不希望雅典娜读取的数据，请不要将该数据存储在同一数据库中 Amazon S3前缀是希望Athena读取的数据。如果你正在利用分区，为了确保Athena扫描分区内的数据，您的WHERE过滤器必须包含分区。有关更多信息，请参见表位置和位置分区

我认为，如果要从表中排除数据，它将需要自己的子文件夹

雅典娜不会排除模式。这些模式仅用于排除爬网时不希望扫描的非必需文件，以及用于Glue ETL。因此，如果要排除这些.metadata文件，则需要编写自动脚本来删除它们