Amazon web services 如何仅处理aws datapipeline和EMR中的增量文件_Amazon Web Services_Aws Lambda_Emr_Amazon Data Pipeline

Amazon web services 如何仅处理aws datapipeline和EMR中的增量文件

amazon-web-services aws-lambda

Amazon web services 如何仅处理aws datapipeline和EMR中的增量文件,amazon-web-services,aws-lambda,emr,amazon-data-pipeline,Amazon Web Services,Aws Lambda,Emr,Amazon Data Pipeline,如何使用AWS数据管道和EMR仅处理新文件？我可能会在源目录中获得不同数量的文件。我想使用AWS数据管道和EMR一个接一个地处理它们。我不确定先决条件“存在”或“Shell命令活动”如何解决这个问题。请建议通过添加EMR步骤或为每个文件创建EMR群集来处理文件增量列表的方法在datapipeline中通常采用的方法是在引用源目录时使用调度表达式。比如说, 如果您的管道计划每小时运行一次，并且您指定“s3://bucket/#{format（minusMinutes（@scheduledstar

如何使用AWS数据管道和EMR仅处理新文件？我可能会在源目录中获得不同数量的文件。我想使用AWS数据管道和EMR一个接一个地处理它们。我不确定先决条件“存在”或“Shell命令活动”如何解决这个问题。请建议通过添加EMR步骤或为每个文件创建EMR群集来处理文件增量列表的方法

在datapipeline中通常采用的方法是在引用源目录时使用调度表达式。比如说,

如果您的管道计划每小时运行一次，并且您指定“s3://bucket/#{format（minusMinutes（@scheduledstartime，60），'YYYY-MM-dd hh'）”

作为输入目录，datapipeline将在17小时运行时解析为“s3://bucket/2016-10-23-16”。因此，作业将只读取对应于16小时的数据。如果您可以以这种方式构建输入以生成数据，则可以使用这种方式。有关表达式的更多示例，请参见

不幸的是，没有内置的“自上次处理后获取数据”支持

在datapipeline中通常采用的方法是在引用源目录时使用调度表达式。比如说,

如果您的管道计划每小时运行一次，并且您指定“s3://bucket/#{format（minusMinutes（@scheduledstartime，60），'YYYY-MM-dd hh'）”

不幸的是，没有内置的“自上次处理后获取数据”支持