Amazon s3 在所有通用爬网WARC文件中搜索一个单词

Amazon s3 在所有通用爬网WARC文件中搜索一个单词,amazon-s3,solr,common-crawl,warc,large-data,Amazon S3,Solr,Common Crawl,Warc,Large Data,我想从common crawl中搜索所有WARC文件(近36K WARC文件)中的一个单词(例如公司名称),并获取HTML源内容中包含该公司名称的所有URL 我想把这些WARC文件保存在S3中。只是我需要这些WARC文件的URL作为结果 是否有任何模块或预构建包可用于此 我可以使用Solr索引吗?(但可能需要更多内存) 提前感谢。如果您只是在web上搜索warc和Solr,您至少会得到一个答案(例如)。你先试过了吗?我试一下。。感谢您使用我们可以索引WARC文件,这些文件存储在本地系统中,但不存

我想从common crawl中搜索所有WARC文件(近36K WARC文件)中的一个单词(例如公司名称),并获取HTML源内容中包含该公司名称的所有URL

我想把这些WARC文件保存在S3中。只是我需要这些WARC文件的URL作为结果

是否有任何模块或预构建包可用于此

我可以使用Solr索引吗?(但可能需要更多内存)


提前感谢。

如果您只是在web上搜索warc和Solr,您至少会得到一个答案(例如)。你先试过了吗?我试一下。。感谢您使用我们可以索引WARC文件,这些文件存储在本地系统中,但不存储在S3中。对吗?