Amazon web services 访问公共数据集_Amazon Web Services_Amazon S3_Amazon Ec2_Amazon_Common Crawl

Amazon web services 访问公共数据集

amazon-web-services amazon-s3 amazon-ec2

Amazon web services 访问公共数据集,amazon-web-services,amazon-s3,amazon-ec2,amazon,common-crawl,Amazon Web Services,Amazon S3,Amazon Ec2,Amazon,Common Crawl,我需要浏览并下载common crawl的公共数据集的子集。页面提到了数据的托管位置如何浏览并可能下载托管在s3://aws publicdatasets/common crawl/crawl-002/上的公共爬网数据要访问公共爬网数据，需要运行map reduce作业相反，由于语料库驻留在S3上，您可以通过使用Amazon的EC2服务运行Hadoop集群。这涉及设置一个自定义hadoop jar，利用我们的自定义InputFormat 类从S3存储桶中的单个ARC文件中提取数据资料

我需要浏览并下载common crawl的公共数据集的子集。页面提到了数据的托管位置
如何浏览并可能下载托管在s3://aws publicdatasets/common crawl/crawl-002/上的公共爬网数据

要访问公共爬网数据，需要运行map reduce作业相反，由于语料库驻留在S3上，您可以通过使用Amazon的EC2服务运行Hadoop集群。这涉及设置一个自定义hadoop jar，利用我们的自定义InputFormat 类从S3存储桶中的单个ARC文件中提取数据

资料来源：

入门：

作为更新，下载通用爬网语料库一直是免费的，您可以使用HTTP而不是S3。 S3允许您使用匿名凭据访问数据

如果要通过HTTP下载，请获取其中一个文件位置，例如：

通用爬网/爬网数据/CC-MAIN-2014-23/segments/1404776400583.60/warc/CC-MAIN-20140707234000-00000-ip-10-180-212-248.ec2.internal.warc.gz

然后添加到其中，生成链接：

要获得所有此类文件的列表，请在最近的爬网中参考warc.paths.gz（或WET或WAT文件的等效文件），或使用s3cmd或类似工具使用匿名凭据列出文件

此链接将起作用，您无需通过S3即可下载数据。

有关常见爬网的一般数据访问，请参阅：

我认为一个有用的方法来获取一些试验数据，是通过在档案上使用新索引：

例如，如果您查询“www.cwi.nl”，您会找到关于包含来自该域的文件的段的JSON结构

{
 "urlkey": "nl,cwi)/", "timestamp": "20150505031358", 
 "status": "200", "url": "http://www.cwi.nl/", 
 "filename": "common-crawl/crawl-data/CC-MAIN-2015-18/segments/1430455222810.45/warc/CC-MAIN-20150501044022-00044-ip-10-235-10-82.ec2.internal.warc.gz", 
 "length": "5881", "mime": "text/html", "offset": "364108412", 
 "digest": "DLQQ4NMJMRRZFGXSXGSFPRO3YJBKVHN5"
}

在其前面加上s3信息，您可以下载数据文件，用作示例数据：

玩得开心

其他答案有一些很好的信息URL，但对于访问实际数据，如果您只需要其中的一小部分，此客户端代码非常适合查看索引和下载内容：

单击您发布的链接时，我得到

此XML文件似乎没有任何与之关联的样式信息。文档树如下所示

这是预期的吗？这是访问数据的一种方法，但不是唯一的方法。