Nutch LinkDb:添加段和段;SolrIndexer需要很多时间

Nutch LinkDb:添加段和段;SolrIndexer需要很多时间,nutch,Nutch,下面是我正在运行的用于索引页面的命令 bin/nutch crawl bin/urls -solr http://localhost:8983/solr/ -dir crawl -depth 2 -topN 15 抓取速度非常快,但是LinkDb:添加段和SolrIndexer步骤需要花费大量时间,因为我反复运行上面的命令,时间会增加。我的要求是,我想尽快索引页面,因为链接很快就会消失(在2分钟内)。我想把这个时间减少到一个很小的数字,我应该怎么做才能做到这一点 若我只想索引网页的URL和标题

下面是我正在运行的用于索引页面的命令

bin/nutch crawl bin/urls -solr http://localhost:8983/solr/ -dir crawl -depth 2 -topN 15
抓取速度非常快,但是LinkDb:添加段和SolrIndexer步骤需要花费大量时间,因为我反复运行上面的命令,时间会增加。我的要求是,我想尽快索引页面,因为链接很快就会消失(在2分钟内)。我想把这个时间减少到一个很小的数字,我应该怎么做才能做到这一点

若我只想索引网页的URL和标题,那个么这样做会对索引速度有好处吗


谢谢

如果您有一个静态种子列表,那么您可以在每次运行nutch时删除“爬网”文件夹!这会为你节省很多时间! 每次运行nutch时,您的细分市场都会增长,因此linkdb需要更多的时间!
你也可以创建一个线程并将这部分任务传递给它,但你必须自己处理分段购买

这似乎很有帮助,如果有帮助,我会告诉你的。同时,你能为你所说的提供任何参考链接吗