Amazon web services 如何使用HTTP获取通用爬网新闻数据集的WARC文件列表?
我可以通过以下方式获得常用爬网的列表: 如何使用公共爬网新闻数据集实现这一点 我尝试了不同的选择,但总是出错:Amazon web services 如何使用HTTP获取通用爬网新闻数据集的WARC文件列表?,amazon-web-services,http,common-crawl,Amazon Web Services,Http,Common Crawl,我可以通过以下方式获得常用爬网的列表: 如何使用公共爬网新闻数据集实现这一点 我尝试了不同的选择,但总是出错: 由于每隔几个小时就会向新闻数据集中添加一个新的WARC文件,因此静态文件列表没有意义。相反,您可以使用-按年份或月份为任何子集获取文件列表,例如 aws --no-sign-request s3 ls --recursive s3://commoncrawl/crawl-data/CC-NEWS/2017/09/ 另见
由于每隔几个小时就会向新闻数据集中添加一个新的WARC文件,因此静态文件列表没有意义。相反,您可以使用-按年份或月份为任何子集获取文件列表,例如
aws --no-sign-request s3 ls --recursive s3://commoncrawl/crawl-data/CC-NEWS/2017/09/
另见