Hadoop 如何访问S3上的aws公共数据集?

Hadoop 如何访问S3上的aws公共数据集?,hadoop,amazon-web-services,amazon-s3,apache-pig,Hadoop,Amazon Web Services,Amazon S3,Apache Pig,我正在尝试使用此url从s3中使用pig加载公共数据 s3://datasets.elasticmapreduce/ngrams/books/20090715/eng-us-all/4gram/data 加载“s3n://datasets.elasticmapreduce/ngrams/books/20090715/eng-us-all/4gram/data” 但它要求访问权限和密钥。我应该将这些数据移动到我的一个存储桶中吗?或者我遗漏了什么公共数据集也只有在您拥有AWS帐户时才可访问。AWS上

我正在尝试使用此url从s3中使用pig加载公共数据 s3://datasets.elasticmapreduce/ngrams/books/20090715/eng-us-all/4gram/data

加载“s3n://datasets.elasticmapreduce/ngrams/books/20090715/eng-us-all/4gram/data”


但它要求访问权限和密钥。我应该将这些数据移动到我的一个存储桶中吗?或者我遗漏了什么

公共数据集也只有在您拥有AWS帐户时才可访问。AWS上的每个人都可以看到数据集。因此,在这种情况下,您需要传递凭据-访问密钥和密钥。

即使数据集是公共的,我们也需要将以下策略添加到IAM角色{“版本”:“2012-10-17”,“语句”:[{“Sid”:“STMT14528694000”,“效果”:“允许”,“操作”:[“s3:”],“Resource:[“arn:aws:s3:::datasets.elasticmapreduce/*”]}]s3上的公共数据集是.lzo压缩的,是一个序列文件。关于如何使用PIG处理的任何建议?以下是示例: