Amazon web services 如何访问Amazon公共数据集并将其装载到EC2

Amazon web services 如何访问Amazon公共数据集并将其装载到EC2,amazon-web-services,amazon-s3,Amazon Web Services,Amazon S3,我是亚马逊AWS的新手。我想访问Google Books Ngrams数据集。大小约为2.2 TB。可访问:s3://datasets.elasticmapreduce/ngrams/books/ 由于数据量很大,我真的无法把它下载到我的电脑上。 (1) 我怎样才能检查部分数据?例如,下载或在线检查10MB的大文件。 (2) 如何创建快照,以便使用AmazonEC2分析dat?为了从快照创建公共数据集卷,我需要找到该数据集的快照ID。但是我在任何地方都找不到它。(1)是的,您可以使用AWS CL

我是亚马逊AWS的新手。我想访问Google Books Ngrams数据集。大小约为2.2 TB。可访问:s3://datasets.elasticmapreduce/ngrams/books/

由于数据量很大,我真的无法把它下载到我的电脑上。 (1) 我怎样才能检查部分数据?例如,下载或在线检查10MB的大文件。 (2) 如何创建快照,以便使用AmazonEC2分析dat?为了从快照创建公共数据集卷,我需要找到该数据集的快照ID。但是我在任何地方都找不到它。

(1)是的,您可以使用AWS CLI或S3DistCP复制部分数据。 (2) 该数据位于S3上,因此您不会像在EBS数据集上那样拥有快照


我建议你通过这个实验室来了解如何处理这个数据集:

这不是一个免费的实验室(1个令牌=30美元),但如果你愿意,我可以在twitter上给你发送一个免费的令牌代码DM@jmfaerman。谢谢!我很感激!我刚刚给你发了推特。我完成了免费的实验室。谢谢!我可以问你一个问题吗?我将input.txt上传到s3 bucket上,并将mapper.py和reducer.py放在s3 bucket的同一文件夹中。我想访问reducer.py中input.txt中的随机行。i、 e line1=linecache.getlines('/path/input.txt',1)。但是,即使我将它们放在同一个文件夹中,并使用os.path.realpath获取input.txt的路径,reducer阶段也会失败。在我的本地机器中,它运行良好。因此,input.txt的位置可能与reducer.py的位置不同,即使它们位于同一个s3文件夹中。非常感谢。你不应该直接在你的reducer中获取行,因为它们将被“推”到你的应用程序中。我知道输入的txt文件将首先通过映射器,在按系统排序后,它将通过reducer。但是,为了节省空间,映射器函数的输出会丢失信息,即只包含每行的索引。因此,在reducer中,当我想要获得给定索引的原始行时,我需要访问原始的input.txt文件。这在使用单节点hadoop的本地机器上运行良好。但当我在AWS中使用mapreduce服务时失败了。所以我猜os.path.realpath('input.txt')并没有真正得到这个文件。