Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/http/4.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Amazon web services 如何使用HTTP获取通用爬网新闻数据集的WARC文件列表?_Amazon Web Services_Http_Common Crawl - Fatal编程技术网

Amazon web services 如何使用HTTP获取通用爬网新闻数据集的WARC文件列表?

Amazon web services 如何使用HTTP获取通用爬网新闻数据集的WARC文件列表?,amazon-web-services,http,common-crawl,Amazon Web Services,Http,Common Crawl,我可以通过以下方式获得常用爬网的列表: 如何使用公共爬网新闻数据集实现这一点 我尝试了不同的选择,但总是出错: 由于每隔几个小时就会向新闻数据集中添加一个新的WARC文件,因此静态文件列表没有意义。相反,您可以使用-按年份或月份为任何子集获取文件列表,例如 aws --no-sign-request s3 ls --recursive s3://commoncrawl/crawl-data/CC-NEWS/2017/09/ 另见

我可以通过以下方式获得常用爬网的列表:

如何使用公共爬网新闻数据集实现这一点

我尝试了不同的选择,但总是出错:


由于每隔几个小时就会向新闻数据集中添加一个新的WARC文件,因此静态文件列表没有意义。相反,您可以使用-按年份或月份为任何子集获取文件列表,例如

aws --no-sign-request s3 ls --recursive s3://commoncrawl/crawl-data/CC-NEWS/2017/09/
另见