与Lucene或Solr一起使用的爬行工具的建议?

与Lucene或Solr一起使用的爬行工具的建议?,lucene,solr,web-crawler,Lucene,Solr,Web Crawler,对于HTML和XML文档(本地或基于web的)以及在Lucene/Solr解决方案空间中运行良好的爬虫(spider)是什么?可以是基于Java的,但不一定非要如此。我建议您去看看,以获得一些灵感: Nutch是一款开源的网络搜索软件。它以LuceneJava为基础,添加了web细节,如爬虫、链接图数据库、HTML和其他文档格式的解析器等 在我看来,这是一个相当重要的漏洞,它阻碍了Solr的广泛采用。新的DataImportHandler是导入结构化数据的良好的第一步,但是对于Solr来说没有一

对于HTML和XML文档(本地或基于web的)以及在Lucene/Solr解决方案空间中运行良好的爬虫(spider)是什么?可以是基于Java的,但不一定非要如此。

我建议您去看看,以获得一些灵感:

Nutch是一款开源的网络搜索软件。它以LuceneJava为基础,添加了web细节,如爬虫、链接图数据库、HTML和其他文档格式的解析器等


在我看来,这是一个相当重要的漏洞,它阻碍了Solr的广泛采用。新的DataImportHandler是导入结构化数据的良好的第一步,但是对于Solr来说没有一个好的文档摄取管道。Nutch确实有效,但Nutch crawler和Solr之间的集成有些笨拙。
我已经尝试了我能找到的所有开源爬虫程序,但没有一个能与Solr进行开箱即用的集成。
关注OpenPipeline和ApacheTika

还要检查ApacheDroids[--这希望不是一个简单的爬行器/爬虫器/工作者框架


它是新的,还不容易现成使用(跑步需要花费一些时间),但这是一件让你关注的好事情。

Nutch可能是你最接近的对手,但它不太灵活


如果你需要更多的东西,你将不得不几乎破解你自己的爬虫程序。这并不像听起来那么糟糕,每种语言都有web库,所以你只需要将一些任务队列管理器与HTTP下载器和HTML解析器连接起来,这真的不需要太多工作。你很可能只需要一个框就可以逃脱,因为爬虫主要是带宽i内容丰富,不是CPU密集型。

我尝试过nutch,但它很难与Solr集成。我想看看Heritrix。它有一个广泛的插件系统,可以轻松与Solr集成,而且爬行速度要快得多。它广泛使用线程来加快进程。

有人尝试过Xapian吗?它是sea吗MS比SOLR快很多,用C++编写。

但会生成Lucene(Java和C)可消费索引文件