Amazon s3 在所有通用爬网WARC文件中搜索一个单词_Amazon S3_Solr_Common Crawl_Warc_Large Data

Amazon s3 在所有通用爬网WARC文件中搜索一个单词

amazon-s3 solr

Amazon s3 在所有通用爬网WARC文件中搜索一个单词,amazon-s3,solr,common-crawl,warc,large-data,Amazon S3,Solr,Common Crawl,Warc,Large Data,我想从common crawl中搜索所有WARC文件（近36K WARC文件）中的一个单词（例如公司名称），并获取HTML源内容中包含该公司名称的所有URL 我想把这些WARC文件保存在S3中。只是我需要这些WARC文件的URL作为结果是否有任何模块或预构建包可用于此我可以使用Solr索引吗？（但可能需要更多内存）提前感谢。如果您只是在web上搜索warc和Solr，您至少会得到一个答案（例如）。你先试过了吗？我试一下。。感谢您使用我们可以索引WARC文件，这些文件存储在本地系统中，但不存

我想从common crawl中搜索所有WARC文件（近36K WARC文件）中的一个单词（例如公司名称），并获取HTML源内容中包含该公司名称的所有URL

我想把这些WARC文件保存在S3中。只是我需要这些WARC文件的URL作为结果

是否有任何模块或预构建包可用于此

我可以使用Solr索引吗？（但可能需要更多内存）

提前感谢。

如果您只是在web上搜索warc和Solr，您至少会得到一个答案（例如）。你先试过了吗？我试一下。。感谢您使用我们可以索引WARC文件，这些文件存储在本地系统中，但不存储在S3中。对吗？