Aws Glue-S3-本机Python
在AWS Glue中,我如何处理S3中每周都会更改的文件 例如: 第1周:“文件名01072018.csv” 第2周:“文件名01142018.csv”Aws Glue-S3-本机Python,python,python-3.x,amazon-redshift,aws-glue,Python,Python 3.x,Amazon Redshift,Aws Glue,在AWS Glue中,我如何处理S3中每周都会更改的文件 例如: 第1周:“文件名01072018.csv” 第2周:“文件名01142018.csv” 这些文件是以相同的格式设置的,但是我需要每周更改一次,以便将这些数据从S3加载到红移中。Glue的代码使用本机Python作为后端。AWS Glue爬虫程序应该能够找到命名为CSV的文件,而无需您进行任何配置 例如,my Kinesis stream生成的文件的路径和名称如下所示: my_events_folder/2018/02/13/20/
这些文件是以相同的格式设置的,但是我需要每周更改一次,以便将这些数据从S3加载到红移中。Glue的代码使用本机Python作为后端。AWS Glue爬虫程序应该能够找到命名为CSV的文件,而无需您进行任何配置 例如,my Kinesis stream生成的文件的路径和名称如下所示:
my_events_folder/2018/02/13/20/my-prefix-3-2018-02-13-20-18-28-112ab3f0-5794-4f77-9a84-83efafeecabc
my_events_folder/2018/02/13/20/my-prefix-2-2018-02-13-20-12-00-7f2efb62-827b-46a6-83c4-b4c52dd87d60
...
AWS Glue只是找到这些文件并自动对它们进行分类。希望这有帮助。AWS Glue应该能够处理文件夹中的所有文件,而不管单个作业中的名称如何。如果不希望再次处理旧文件,请在每次运行后使用boto3 api for s3将其移动到另一个位置。如果有两种不同类型的文件(具有不同的内部格式),则它们必须位于不同的文件夹层次结构中。无法告诉爬虫程序只查找
redfile*.csv
并忽略bluefile%.csv
。而是用户独立的层次结构,如:
s3://my-bucket/redfiles/
redfile01072018.csv
redfile01142018.csv
...
s3://my-bucket/bluefiles/
bluefile01072018.csv
bluefile01142018.csv
...
设置两个爬虫程序,一个爬虫
s3://my bucket/redfiles/
,另一个爬虫s3://my bucket/bluefiles/
我没有跟随。文件名之间有什么变化?你是说格式是一样的,文件在同一个文件夹中,但你只需要添加新文件中的数据就可以了?是的。只是最后日期变了。你看书签了吗?“这应该就是你所需要的了?”琼斯科特说,“这看起来正是我所需要的。”。在一个bucket中有两个不同的文件名怎么样?有没有一种方法可以使用字符串匹配或类似的东西来选择一个文件名和另一个文件名?