Search solr+;赫里特里克斯

Search solr+;赫里特里克斯,search,indexing,search-engine,solr,web-crawler,Search,Indexing,Search Engine,Solr,Web Crawler,如何将solr与heritrix集成 我想用heritrix归档一个站点,然后用solr在本地索引和搜索这个文件 谢谢根据,是: 向Heritrix添加自定义编写器非常容易。我们写我们的爬行 到MySQL,然后从那里吸收到Solr中。这并不难 但是,请编写一个直接向Solr写入的Heritrix编写器 --肖恩·蒂姆 或者您可能想使用,但在将其与Solr集成方面还有更多的工作要做: Solr 1.4企业搜索手册中有一节介绍如何同时使用Heritrix和Solr。基本上使用Heritrix进

如何将solr与heritrix集成

我想用heritrix归档一个站点,然后用solr在本地索引和搜索这个文件

谢谢

根据,是:

向Heritrix添加自定义编写器非常容易。我们写我们的爬行 到MySQL,然后从那里吸收到Solr中。这并不难 但是,请编写一个直接向Solr写入的Heritrix编写器

--肖恩·蒂姆

或者您可能想使用,但在将其与Solr集成方面还有更多的工作要做:


Solr 1.4企业搜索手册中有一节介绍如何同时使用Heritrix和Solr。基本上使用Heritrix进行爬网,然后在一个单独的过程中解析归档文件并将其添加到Solr中。当你在Nutch提供的页面排名分数等东西上放松时,它确实简化了事情,因为你的爬虫程序和搜索引擎是分开的工具


这基本上是Mauricio使用的方法,将数据存储到MySQL中作为中间步骤。我们在AmazonEC2AMI上发布了这本书的所有来源,查找“solrbook”。此外,Packt()上的支持站点将允许您下载该示例。

使用Solr进行索引的问题是,它是一个纯文本索引(如果您只是在对内部网站进行爬网,而不关心“pagerank”,这可能没问题)

使用Nutch会给你一个更好的索引,因为它确实使用了pagerank

坚果蜡

但是,如果您在使用Heritrix时已经死气沉沉,想要基于pagerank的搜索结果,您可以使用(Nutch Web Archive eXtensions)索引Heritrix的输出(这就是Heritrix的制造商正在做的事情)

NutchWAX用于web存档,但也可用于创建live web的搜索引擎(事实上,这更容易,因为在每次重建索引时,您不会拖拽数年的数据)

Solr

如果您确实想使用Heritrix+Solr创建搜索网站,您可能应该用一个自定义处理器替换Heritrix中的“ARCWriter”处理器,该处理器将页面内容提交给Solr

Solr端只是一个通过HTTP发布的XML文件,非常简单


Heritrix端稍微复杂一点,但它将让您开始为Heritrix 1.x编写处理器(如果您使用的是——目前为止——不稳定的3.x——或已停产的2.x——您需要做更多的腿部工作,因为文档还没有提供。)。

出于与我使用youseer相同的目的

首先下载YouSeer.jar,然后

java-jar YouSeer.jar/cygdrive/d/arcs/cached 3 0

它在内部使用ArcReader读取文档,然后将其上载到Solr。YouSeer代码相当简单,我不得不为了自己的目的修改一下