Search solr+；赫里特里克斯_Search_Indexing_Search Engine_Solr_Web Crawler

Search solr+；赫里特里克斯

search indexing solr web-crawler

Search solr+；赫里特里克斯,search,indexing,search-engine,solr,web-crawler,Search,Indexing,Search Engine,Solr,Web Crawler,如何将solr与heritrix集成我想用heritrix归档一个站点，然后用solr在本地索引和搜索这个文件谢谢根据，是：向Heritrix添加自定义编写器非常容易。我们写我们的爬行到MySQL，然后从那里吸收到Solr中。这并不难但是，请编写一个直接向Solr写入的Heritrix编写器 --肖恩·蒂姆或者您可能想使用，但在将其与Solr集成方面还有更多的工作要做： Solr 1.4企业搜索手册中有一节介绍如何同时使用Heritrix和Solr。基本上使用Heritrix进

如何将solr与heritrix集成

我想用heritrix归档一个站点，然后用solr在本地索引和搜索这个文件

谢谢

根据，是：

向Heritrix添加自定义编写器非常容易。我们写我们的爬行到MySQL，然后从那里吸收到Solr中。这并不难但是，请编写一个直接向Solr写入的Heritrix编写器

--肖恩·蒂姆

或者您可能想使用，但在将其与Solr集成方面还有更多的工作要做：

Solr 1.4企业搜索手册中有一节介绍如何同时使用Heritrix和Solr。基本上使用Heritrix进行爬网，然后在一个单独的过程中解析归档文件并将其添加到Solr中。当你在Nutch提供的页面排名分数等东西上放松时，它确实简化了事情，因为你的爬虫程序和搜索引擎是分开的工具

这基本上是Mauricio使用的方法，将数据存储到MySQL中作为中间步骤。我们在AmazonEC2AMI上发布了这本书的所有来源，查找“solrbook”。此外，Packt（）上的支持站点将允许您下载该示例。

使用Solr进行索引的问题是，它是一个纯文本索引（如果您只是在对内部网站进行爬网，而不关心“pagerank”，这可能没问题）

使用Nutch会给你一个更好的索引，因为它确实使用了pagerank

坚果蜡

但是，如果您在使用Heritrix时已经死气沉沉，想要基于pagerank的搜索结果，您可以使用（Nutch Web Archive eXtensions）索引Heritrix的输出（这就是Heritrix的制造商正在做的事情）

NutchWAX用于web存档，但也可用于创建live web的搜索引擎（事实上，这更容易，因为在每次重建索引时，您不会拖拽数年的数据）

Solr

如果您确实想使用Heritrix+Solr创建搜索网站，您可能应该用一个自定义处理器替换Heritrix中的“ARCWriter”处理器，该处理器将页面内容提交给Solr

Solr端只是一个通过HTTP发布的XML文件，非常简单

Heritrix端稍微复杂一点，但它将让您开始为Heritrix 1.x编写处理器（如果您使用的是——目前为止——不稳定的3.x——或已停产的2.x——您需要做更多的腿部工作，因为文档还没有提供。）。

出于与我使用youseer相同的目的

首先下载YouSeer.jar，然后

java-jar YouSeer.jar/cygdrive/d/arcs/cached 3 0

它在内部使用ArcReader读取文档，然后将其上载到Solr。YouSeer代码相当简单，我不得不为了自己的目的修改一下