Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/solr/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java Solr作为完整解决方案?_Java_Solr_Web Crawler - Fatal编程技术网

Java Solr作为完整解决方案?

Java Solr作为完整解决方案?,java,solr,web-crawler,Java,Solr,Web Crawler,我在考虑用它来做爬行引擎。我需要在一个数据库中存储10亿个URL,其中包含诸如标题、描述等元数据以及每个URL之间的链接。问题是: 爬网逻辑必须用java编写,即Nutch不是一个选项 mysql对于20亿行的搜索来说太慢了 我很确定我会通过不使用solr来重新发明轮子 我的目标是能够映射互联网上URL之间的链接。虽然一开始可能是一个小的保护体,但它可能会变得更大,当它出现时,我想现在就为扩展做好准备。因此,我最大的担心只会在一两个月后出现,但我需要知道,我是否能够快速获得URL之间所有链接的列

我在考虑用它来做爬行引擎。我需要在一个数据库中存储10亿个URL,其中包含诸如标题、描述等元数据以及每个URL之间的链接。问题是:

爬网逻辑必须用java编写,即Nutch不是一个选项 mysql对于20亿行的搜索来说太慢了 我很确定我会通过不使用solr来重新发明轮子 我的目标是能够映射互联网上URL之间的链接。虽然一开始可能是一个小的保护体,但它可能会变得更大,当它出现时,我想现在就为扩展做好准备。因此,我最大的担心只会在一两个月后出现,但我需要知道,我是否能够快速获得URL之间所有链接的列表至关重要,无论是100万行还是10亿行。这就是为什么我需要提前知道这有多可能

SOLR是否充当MySQL和用户之间的缓冲区?因此,SOLR是一个独立的数据库,它为MySQL编制索引。那么用户真的在搜索SOLR吗?我假设SOLR存储到的数据库是它自己的内部数据库? SOLR是否允许我跨多台服务器扩展存储?处理呢? SOLR是否允许我查看链接到其他URL的所有URL。也就是说,存储指向数据库中任何其他URL的所有其他链接的引用?
我前一段时间就做过这方面的工作,不能说太多,但我强烈建议用MongoDB而不是MySQL来研究solr。你能告诉我你是否知道MongoDB的solr是否能够映射每个url之间的关系吗?而且很快?我不确定它是否足够快,但我可以保证它会比mysql好。1为什么要使用Mongo?我认为光靠Solr就够了。2您可以通过SolrCloud轻松扩展存储和处理。3您当然可以这样做-您将首先在索引中创建所有文档,其中包含空白引用字段,然后进行第二阶段,在索引中添加文档之间的链接。您知道我是否能够匹配URL,例如,URL a在URL B上出现X次吗?或者更重要的是,这个URL有来自某个站点的Y个传入链接?