Amazon web services 如何访问Amazon公共数据集并将其装载到EC2_Amazon Web Services_Amazon S3

Amazon web services 如何访问Amazon公共数据集并将其装载到EC2

amazon-web-services amazon-s3

Amazon web services 如何访问Amazon公共数据集并将其装载到EC2,amazon-web-services,amazon-s3,Amazon Web Services,Amazon S3,我是亚马逊AWS的新手。我想访问Google Books Ngrams数据集。大小约为2.2 TB。可访问：s3://datasets.elasticmapreduce/ngrams/books/ 由于数据量很大，我真的无法把它下载到我的电脑上。（1）我怎样才能检查部分数据？例如，下载或在线检查10MB的大文件。（2）如何创建快照，以便使用AmazonEC2分析dat？为了从快照创建公共数据集卷，我需要找到该数据集的快照ID。但是我在任何地方都找不到它。（1）是的，您可以使用AWS CL

我是亚马逊AWS的新手。我想访问Google Books Ngrams数据集。大小约为2.2 TB。可访问：s3://datasets.elasticmapreduce/ngrams/books/

由于数据量很大，我真的无法把它下载到我的电脑上。（1）我怎样才能检查部分数据？例如，下载或在线检查10MB的大文件。（2）如何创建快照，以便使用AmazonEC2分析dat？为了从快照创建公共数据集卷，我需要找到该数据集的快照ID。但是我在任何地方都找不到它。

（1）是的，您可以使用AWS CLI或S3DistCP复制部分数据。（2）该数据位于S3上，因此您不会像在EBS数据集上那样拥有快照

我建议你通过这个实验室来了解如何处理这个数据集：

这不是一个免费的实验室（1个令牌=30美元），但如果你愿意，我可以在twitter上给你发送一个免费的令牌代码DM@jmfaerman。谢谢！我很感激！我刚刚给你发了推特。我完成了免费的实验室。谢谢！我可以问你一个问题吗？我将input.txt上传到s3 bucket上，并将mapper.py和reducer.py放在s3 bucket的同一文件夹中。我想访问reducer.py中input.txt中的随机行。i、 e line1=linecache.getlines（'/path/input.txt'，1）。但是，即使我将它们放在同一个文件夹中，并使用os.path.realpath获取input.txt的路径，reducer阶段也会失败。在我的本地机器中，它运行良好。因此，input.txt的位置可能与reducer.py的位置不同，即使它们位于同一个s3文件夹中。非常感谢。你不应该直接在你的reducer中获取行，因为它们将被“推”到你的应用程序中。我知道输入的txt文件将首先通过映射器，在按系统排序后，它将通过reducer。但是，为了节省空间，映射器函数的输出会丢失信息，即只包含每行的索引。因此，在reducer中，当我想要获得给定索引的原始行时，我需要访问原始的input.txt文件。这在使用单节点hadoop的本地机器上运行良好。但当我在AWS中使用mapreduce服务时失败了。所以我猜os.path.realpath（'input.txt'）并没有真正得到这个文件。