Amazon s3 直接从EMR map/REDUCT任务访问S3

Amazon s3 直接从EMR map/REDUCT任务访问S3,amazon-s3,amazon-ec2,amazon-web-services,amazon-emr,Amazon S3,Amazon Ec2,Amazon Web Services,Amazon Emr,我试图弄清楚如何直接从EMR映射任务写入s3存储桶。我想运行一个python流作业,它将从internet获取一些数据并将其保存到s3,而无需返回以减少作业。有人能帮我吗?为什么不将MR作业的输出设置为s3目录,并告诉它没有减速机: ./elastic-mapreduce ..... --output s3n://bucket/outputfiles --reducer NONE 这应该是你想要的 然后您的脚本可以执行以下操作(对不起,ruby): STDIN.each do |url|

我试图弄清楚如何直接从EMR映射任务写入s3存储桶。我想运行一个python流作业,它将从internet获取一些数据并将其保存到s3,而无需返回以减少作业。有人能帮我吗?

为什么不将MR作业的输出设置为s3目录,并告诉它没有减速机:

./elastic-mapreduce ..... --output s3n://bucket/outputfiles --reducer NONE
这应该是你想要的

然后您的脚本可以执行以下操作(对不起,ruby):

STDIN.each do |url|
  puts extract_data(url)
end