Amazon web services 如何使用HTTP获取通用爬网新闻数据集的WARC文件列表？_Amazon Web Services_Http_Common Crawl

Amazon web services 如何使用HTTP获取通用爬网新闻数据集的WARC文件列表？

amazon-web-services http

Amazon web services 如何使用HTTP获取通用爬网新闻数据集的WARC文件列表？,amazon-web-services,http,common-crawl,Amazon Web Services,Http,Common Crawl,我可以通过以下方式获得常用爬网的列表：如何使用公共爬网新闻数据集实现这一点我尝试了不同的选择，但总是出错：由于每隔几个小时就会向新闻数据集中添加一个新的WARC文件，因此静态文件列表没有意义。相反，您可以使用-按年份或月份为任何子集获取文件列表，例如 aws --no-sign-request s3 ls --recursive s3://commoncrawl/crawl-data/CC-NEWS/2017/09/ 另见

我可以通过以下方式获得常用爬网的列表：

如何使用公共爬网新闻数据集实现这一点

我尝试了不同的选择，但总是出错：

由于每隔几个小时就会向新闻数据集中添加一个新的WARC文件，因此静态文件列表没有意义。相反，您可以使用-按年份或月份为任何子集获取文件列表，例如

aws --no-sign-request s3 ls --recursive s3://commoncrawl/crawl-data/CC-NEWS/2017/09/

另见