Amazon s3 粘合爬虫程序无法排除.csv.metadata文件
我有一个S3位置Amazon s3 粘合爬虫程序无法排除.csv.metadata文件,amazon-s3,aws-glue,aws-glue-data-catalog,Amazon S3,Aws Glue,Aws Glue Data Catalog,我有一个S3位置S3://bucket name/folder name/,它由一个子文件夹组成,该子文件夹的名称是动态生成的,其中包含短语\u Top10InvoiceIds。此子文件夹由.csv和.csv.metadata文件组成。我使用胶水爬虫只抓取csv文件,并在雅典娜查看它们。但是我无法排除.csv.metadata文件。我尝试了所有可能的正则表达式模式作为glob值 我的一些尝试是: *\u TOP10InvoiceId/*.metadata *\u TOP10InvoiceId/*
S3://bucket name/folder name/
,它由一个子文件夹组成,该子文件夹的名称是动态生成的,其中包含短语\u Top10InvoiceIds
。此子文件夹由.csv
和.csv.metadata
文件组成。我使用胶水爬虫只抓取csv文件,并在雅典娜查看它们。但是我无法排除.csv.metadata
文件。我尝试了所有可能的正则表达式模式作为glob值
我的一些尝试是:
*\u TOP10InvoiceId/*.metadata
*\u TOP10InvoiceId/*.*元数据
*\u Top10InvoiceId/*.*。元数据
*\u TOP10InvoiceId/*.csv.metadata
**.元数据
*.元数据
*.csv.metadata
*/*.元数据
如果有人能帮我找出模式或建议另一种方法,那就太好了。尝试使用
***.csv.metadata
或***.metadata
排除模式听起来您试图通过在Glue中使用排除来阻止.metadata文件在Athena表中显示为数据爬虫
粘合爬虫用于为所述表创建表定义和相关元数据。在将数据填充到表中方面,这就是雅典娜:
爬虫
连接到数据存储(源或目标)的程序可通过
按优先级排序的分类器列表,用于确定数据的模式,
然后在AWS Glue数据目录中创建元数据表
Athena中的表获取您在include模式中列出的bucket路径下的所有数据:
重要
雅典娜读取存储在“s3://bucketname/prefix/”下的所有数据。如果你有
您不希望雅典娜读取的数据,请不要将该数据存储在同一数据库中
Amazon S3前缀是希望Athena读取的数据。如果你正在利用
分区,为了确保Athena扫描分区内的数据,您的WHERE过滤器
必须包含分区。有关更多信息,请参见表位置和位置
分区
我认为,如果要从表中排除数据,它将需要自己的子文件夹 雅典娜不会排除模式。这些模式仅用于排除爬网时不希望扫描的非必需文件,以及用于Glue ETL。因此,如果要排除这些.metadata文件,则需要编写自动脚本来删除它们