Hadoop 如何指定S3 bucket作为EMR的输入

Hadoop 如何指定S3 bucket作为EMR的输入,hadoop,amazon-s3,elastic-map-reduce,Hadoop,Amazon S3,Elastic Map Reduce,与复制到HDFS不同,是否可以只获取S3中存储桶中的对象数组,以便在EMR中进行处理 我已经尝试过这个方法,并且不断收到没有凭据的安全警告(即使在我将凭据添加到配置中之后)(这是因为刚刚创建了新路径(“s3n://…”),或者当我尝试使用AWS sdk访问我的存储桶时,运行jar告诉我缺少AWS sdk。您可以在参数部分添加它 在将其作为步骤添加时,选择CustomJAR JAR位置:s3://inbsightshadoop/JAR/loganalysis.JAR 主类:无 参数:s3://in

与复制到HDFS不同,是否可以只获取S3中存储桶中的对象数组,以便在EMR中进行处理


我已经尝试过这个方法,并且不断收到没有凭据的安全警告(即使在我将凭据添加到配置中之后)(这是因为刚刚创建了新路径(“s3n://…”),或者当我尝试使用AWS sdk访问我的存储桶时,运行jar告诉我缺少AWS sdk。

您可以在参数部分添加它

在将其作为步骤添加时,选择CustomJAR

JAR位置:s3://inbsightshadoop/JAR/loganalysis.JAR
主类:无
参数:s3://inbsightshadoop/insights输入s3://inbsightshadoop/insights输出

失败时的操作:终止群集

是否使用EMR?如果是,S3帐户是否在同一aws帐户下?如果是,则不需要提供任何安全凭据。示例命令应该如下所示:
ruby-elastic-mapreduce--jobflow--jar s3:///myJob.jar--arg s3://--step name“My Job”
@Amar如果s3帐户不在同一aws帐户下该怎么办。在这种情况下如何指定安全凭据?我不确定这是否有效,但请尝试以下操作:
s3://:@
,类似于
s3://RYWX12N9WCY42XVOL8WH:Xqj1%2FNMvKBhl1jqKlzbYJS66ua0e8z7Kkvptl9bv@mybucket/目的地