Hadoop 如何访问S3上的aws公共数据集？_Hadoop_Amazon Web Services_Amazon S3_Apache Pig

Hadoop 如何访问S3上的aws公共数据集？

hadoop amazon-web-services amazon-s3 apache-pig

Hadoop 如何访问S3上的aws公共数据集？,hadoop,amazon-web-services,amazon-s3,apache-pig,Hadoop,Amazon Web Services,Amazon S3,Apache Pig,我正在尝试使用此url从s3中使用pig加载公共数据 s3://datasets.elasticmapreduce/ngrams/books/20090715/eng-us-all/4gram/data 加载“s3n://datasets.elasticmapreduce/ngrams/books/20090715/eng-us-all/4gram/data” 但它要求访问权限和密钥。我应该将这些数据移动到我的一个存储桶中吗？或者我遗漏了什么公共数据集也只有在您拥有AWS帐户时才可访问。AWS上

我正在尝试使用此url从s3中使用pig加载公共数据 s3://datasets.elasticmapreduce/ngrams/books/20090715/eng-us-all/4gram/data

加载“s3n://datasets.elasticmapreduce/ngrams/books/20090715/eng-us-all/4gram/data”

但它要求访问权限和密钥。我应该将这些数据移动到我的一个存储桶中吗？或者我遗漏了什么

公共数据集也只有在您拥有AWS帐户时才可访问。AWS上的每个人都可以看到数据集。因此，在这种情况下，您需要传递凭据-访问密钥和密钥。

即使数据集是公共的，我们也需要将以下策略添加到IAM角色{“版本”：“2012-10-17”，“语句”：[{“Sid”：“STMT14528694000”，“效果”：“允许”，“操作”：[“s3:”]，“Resource:[“arn:aws:s3:：：datasets.elasticmapreduce/*”]}]s3上的公共数据集是.lzo压缩的，是一个序列文件。关于如何使用PIG处理的任何建议？以下是示例：