与Lucene或Solr一起使用的爬行工具的建议？_Lucene_Solr_Web Crawler

与Lucene或Solr一起使用的爬行工具的建议？

lucene solr web-crawler

与Lucene或Solr一起使用的爬行工具的建议？,lucene,solr,web-crawler,Lucene,Solr,Web Crawler,对于HTML和XML文档（本地或基于web的）以及在Lucene/Solr解决方案空间中运行良好的爬虫（spider）是什么？可以是基于Java的，但不一定非要如此。我建议您去看看，以获得一些灵感： Nutch是一款开源的网络搜索软件。它以LuceneJava为基础，添加了web细节，如爬虫、链接图数据库、HTML和其他文档格式的解析器等在我看来，这是一个相当重要的漏洞，它阻碍了Solr的广泛采用。新的DataImportHandler是导入结构化数据的良好的第一步，但是对于Solr来说没有一

对于HTML和XML文档（本地或基于web的）以及在Lucene/Solr解决方案空间中运行良好的爬虫（spider）是什么？可以是基于Java的，但不一定非要如此。

我建议您去看看，以获得一些灵感：

Nutch是一款开源的网络搜索软件。它以LuceneJava为基础，添加了web细节，如爬虫、链接图数据库、HTML和其他文档格式的解析器等

在我看来，这是一个相当重要的漏洞，它阻碍了Solr的广泛采用。新的DataImportHandler是导入结构化数据的良好的第一步，但是对于Solr来说没有一个好的文档摄取管道。Nutch确实有效，但Nutch crawler和Solr之间的集成有些笨拙。
我已经尝试了我能找到的所有开源爬虫程序，但没有一个能与Solr进行开箱即用的集成。
关注OpenPipeline和ApacheTika

还要检查ApacheDroids[--这希望不是一个简单的爬行器/爬虫器/工作者框架

它是新的，还不容易现成使用（跑步需要花费一些时间），但这是一件让你关注的好事情。

Nutch可能是你最接近的对手，但它不太灵活

如果你需要更多的东西，你将不得不几乎破解你自己的爬虫程序。这并不像听起来那么糟糕，每种语言都有web库，所以你只需要将一些任务队列管理器与HTTP下载器和HTML解析器连接起来，这真的不需要太多工作。你很可能只需要一个框就可以逃脱，因为爬虫主要是带宽i内容丰富，不是CPU密集型。

我尝试过nutch，但它很难与Solr集成。我想看看Heritrix。它有一个广泛的插件系统，可以轻松与Solr集成，而且爬行速度要快得多。它广泛使用线程来加快进程。

有人尝试过Xapian吗？它是sea吗MS比SOLR快很多，用C++编写。

但会生成Lucene（Java和C）可消费索引文件