Java Solr作为完整解决方案？_Java_Solr_Web Crawler

Java Solr作为完整解决方案？

java solr web-crawler

Java Solr作为完整解决方案？,java,solr,web-crawler,Java,Solr,Web Crawler,我在考虑用它来做爬行引擎。我需要在一个数据库中存储10亿个URL，其中包含诸如标题、描述等元数据以及每个URL之间的链接。问题是：爬网逻辑必须用java编写，即Nutch不是一个选项 mysql对于20亿行的搜索来说太慢了我很确定我会通过不使用solr来重新发明轮子我的目标是能够映射互联网上URL之间的链接。虽然一开始可能是一个小的保护体，但它可能会变得更大，当它出现时，我想现在就为扩展做好准备。因此，我最大的担心只会在一两个月后出现，但我需要知道，我是否能够快速获得URL之间所有链接的列

我在考虑用它来做爬行引擎。我需要在一个数据库中存储10亿个URL，其中包含诸如标题、描述等元数据以及每个URL之间的链接。问题是：

爬网逻辑必须用java编写，即Nutch不是一个选项 mysql对于20亿行的搜索来说太慢了我很确定我会通过不使用solr来重新发明轮子我的目标是能够映射互联网上URL之间的链接。虽然一开始可能是一个小的保护体，但它可能会变得更大，当它出现时，我想现在就为扩展做好准备。因此，我最大的担心只会在一两个月后出现，但我需要知道，我是否能够快速获得URL之间所有链接的列表至关重要，无论是100万行还是10亿行。这就是为什么我需要提前知道这有多可能

SOLR是否充当MySQL和用户之间的缓冲区？因此，SOLR是一个独立的数据库，它为MySQL编制索引。那么用户真的在搜索SOLR吗？我假设SOLR存储到的数据库是它自己的内部数据库？ SOLR是否允许我跨多台服务器扩展存储？处理呢？ SOLR是否允许我查看链接到其他URL的所有URL。也就是说，存储指向数据库中任何其他URL的所有其他链接的引用？

我前一段时间就做过这方面的工作，不能说太多，但我强烈建议用MongoDB而不是MySQL来研究solr。你能告诉我你是否知道MongoDB的solr是否能够映射每个url之间的关系吗？而且很快？我不确定它是否足够快，但我可以保证它会比mysql好。1为什么要使用Mongo？我认为光靠Solr就够了。2您可以通过SolrCloud轻松扩展存储和处理。3您当然可以这样做-您将首先在索引中创建所有文档，其中包含空白引用字段，然后进行第二阶段，在索引中添加文档之间的链接。您知道我是否能够匹配URL，例如，URL a在URL B上出现X次吗？或者更重要的是，这个URL有来自某个站点的Y个传入链接？