Amazon web services 如何仅处理aws datapipeline和EMR中的增量文件

Amazon web services 如何仅处理aws datapipeline和EMR中的增量文件,amazon-web-services,aws-lambda,emr,amazon-data-pipeline,Amazon Web Services,Aws Lambda,Emr,Amazon Data Pipeline,如何使用AWS数据管道和EMR仅处理新文件?我可能会在源目录中获得不同数量的文件。我想使用AWS数据管道和EMR一个接一个地处理它们。我不确定先决条件“存在”或“Shell命令活动”如何解决这个问题。请建议通过添加EMR步骤或为每个文件创建EMR群集来处理文件增量列表的方法 在datapipeline中通常采用的方法是在引用源目录时使用调度表达式。比如说, 如果您的管道计划每小时运行一次,并且您指定“s3://bucket/#{format(minusMinutes(@scheduledstar

如何使用AWS数据管道和EMR仅处理新文件?我可能会在源目录中获得不同数量的文件。我想使用AWS数据管道和EMR一个接一个地处理它们。我不确定先决条件“存在”或“Shell命令活动”如何解决这个问题。请建议通过添加EMR步骤或为每个文件创建EMR群集来处理文件增量列表的方法

在datapipeline中通常采用的方法是在引用源目录时使用调度表达式。比如说,

如果您的管道计划每小时运行一次,并且您指定“s3://bucket/#{format(minusMinutes(@scheduledstartime,60),'YYYY-MM-dd hh')”

作为输入目录,datapipeline将在17小时运行时解析为“s3://bucket/2016-10-23-16”。因此,作业将只读取对应于16小时的数据。如果您可以以这种方式构建输入以生成数据,则可以使用这种方式。有关表达式的更多示例,请参见


不幸的是,没有内置的“自上次处理后获取数据”支持

在datapipeline中通常采用的方法是在引用源目录时使用调度表达式。比如说,

如果您的管道计划每小时运行一次,并且您指定“s3://bucket/#{format(minusMinutes(@scheduledstartime,60),'YYYY-MM-dd hh')”

作为输入目录,datapipeline将在17小时运行时解析为“s3://bucket/2016-10-23-16”。因此,作业将只读取对应于16小时的数据。如果您可以以这种方式构建输入以生成数据,则可以使用这种方式。有关表达式的更多示例,请参见

不幸的是,没有内置的“自上次处理后获取数据”支持