Hadoop 如何指定S3 bucket作为EMR的输入_Hadoop_Amazon S3_Elastic Map Reduce

Hadoop 如何指定S3 bucket作为EMR的输入

hadoop amazon-s3

Hadoop 如何指定S3 bucket作为EMR的输入,hadoop,amazon-s3,elastic-map-reduce,Hadoop,Amazon S3,Elastic Map Reduce,与复制到HDFS不同，是否可以只获取S3中存储桶中的对象数组，以便在EMR中进行处理我已经尝试过这个方法，并且不断收到没有凭据的安全警告（即使在我将凭据添加到配置中之后）（这是因为刚刚创建了新路径（“s3n://…”），或者当我尝试使用AWS sdk访问我的存储桶时，运行jar告诉我缺少AWS sdk。您可以在参数部分添加它在将其作为步骤添加时，选择CustomJAR JAR位置：s3://inbsightshadoop/JAR/loganalysis.JAR 主类：无参数：s3://in

与复制到HDFS不同，是否可以只获取S3中存储桶中的对象数组，以便在EMR中进行处理

我已经尝试过这个方法，并且不断收到没有凭据的安全警告（即使在我将凭据添加到配置中之后）（这是因为刚刚创建了新路径（“s3n://…”），或者当我尝试使用AWS sdk访问我的存储桶时，运行jar告诉我缺少AWS sdk。

您可以在参数部分添加它

在将其作为步骤添加时，选择CustomJAR

JAR位置：s3://inbsightshadoop/JAR/loganalysis.JAR
主类：无
参数：s3://inbsightshadoop/insights输入s3://inbsightshadoop/insights输出

失败时的操作：终止群集

是否使用EMR？如果是，S3帐户是否在同一aws帐户下？如果是，则不需要提供任何安全凭据。示例命令应该如下所示：

ruby-elastic-mapreduce--jobflow--jar s3:///myJob.jar--arg s3://--step name“My Job”

@Amar如果s3帐户不在同一aws帐户下该怎么办。在这种情况下如何指定安全凭据？我不确定这是否有效，但请尝试以下操作：

s3://:@

，类似于

s3://RYWX12N9WCY42XVOL8WH:Xqj1%2FNMvKBhl1jqKlzbYJS66ua0e8z7Kkvptl9bv@mybucket/目的地