Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/amazon-s3/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Amazon web services 访问公共数据集_Amazon Web Services_Amazon S3_Amazon Ec2_Amazon_Common Crawl - Fatal编程技术网

Amazon web services 访问公共数据集

Amazon web services 访问公共数据集,amazon-web-services,amazon-s3,amazon-ec2,amazon,common-crawl,Amazon Web Services,Amazon S3,Amazon Ec2,Amazon,Common Crawl,我需要浏览并下载common crawl的公共数据集的子集。页面提到了数据的托管位置 如何浏览并可能下载托管在s3://aws publicdatasets/common crawl/crawl-002/上的公共爬网数据 要访问公共爬网数据,需要运行map reduce作业 相反,由于语料库驻留在S3上,您可以通过 使用Amazon的EC2服务运行Hadoop集群。这涉及 设置一个自定义hadoop jar,利用我们的自定义InputFormat 类从S3存储桶中的单个ARC文件中提取数据 资料

我需要浏览并下载common crawl的公共数据集的子集。页面提到了数据的托管位置
如何浏览并可能下载托管在s3://aws publicdatasets/common crawl/crawl-002/上的公共爬网数据

要访问公共爬网数据,需要运行map reduce作业 相反,由于语料库驻留在S3上,您可以通过 使用Amazon的EC2服务运行Hadoop集群。这涉及 设置一个自定义hadoop jar,利用我们的自定义InputFormat 类从S3存储桶中的单个ARC文件中提取数据

资料来源:


入门:

作为更新,下载通用爬网语料库一直是免费的,您可以使用HTTP而不是S3。 S3允许您使用匿名凭据访问数据

如果要通过HTTP下载,请获取其中一个文件位置,例如:

通用爬网/爬网数据/CC-MAIN-2014-23/segments/1404776400583.60/warc/CC-MAIN-20140707234000-00000-ip-10-180-212-248.ec2.internal.warc.gz

然后添加到其中,生成链接:

要获得所有此类文件的列表,请在最近的爬网中参考warc.paths.gz(或WET或WAT文件的等效文件),或使用s3cmd或类似工具使用匿名凭据列出文件


此链接将起作用,您无需通过S3即可下载数据。

有关常见爬网的一般数据访问,请参阅:

我认为一个有用的方法来获取一些试验数据,是通过在档案上使用新索引:

例如,如果您查询“www.cwi.nl”,您会找到关于包含来自该域的文件的段的JSON结构

{
 "urlkey": "nl,cwi)/", "timestamp": "20150505031358", 
 "status": "200", "url": "http://www.cwi.nl/", 
 "filename": "common-crawl/crawl-data/CC-MAIN-2015-18/segments/1430455222810.45/warc/CC-MAIN-20150501044022-00044-ip-10-235-10-82.ec2.internal.warc.gz", 
 "length": "5881", "mime": "text/html", "offset": "364108412", 
 "digest": "DLQQ4NMJMRRZFGXSXGSFPRO3YJBKVHN5"
}
在其前面加上s3信息,您可以下载数据文件,用作示例数据:


玩得开心

其他答案有一些很好的信息URL,但对于访问实际数据,如果您只需要其中的一小部分,此客户端代码非常适合查看索引和下载内容:


单击您发布的链接时,我得到
此XML文件似乎没有任何与之关联的样式信息。文档树如下所示
这是预期的吗?这是访问数据的一种方法,但不是唯一的方法。