Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/solr/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
我们如何使用Lucene、Solr或Nutch创建一个简单的搜索引擎?_Lucene_Solr_Nutch - Fatal编程技术网

我们如何使用Lucene、Solr或Nutch创建一个简单的搜索引擎?

我们如何使用Lucene、Solr或Nutch创建一个简单的搜索引擎?,lucene,solr,nutch,Lucene,Solr,Nutch,我们公司有数千份PDF文档。我们如何使用Lucene、Solr或Nutch创建一个简单的搜索引擎?我们将提供一个基本的Java/JSP网页,人们可以输入单词并执行基本的和/或查询,然后向他们显示所有匹配PDF的文档链接。如果您有Linux服务器,您可以使用它来索引它们,然后只使用它附带的搜索功能。它有一个(实验性的)web搜索界面,也可以连接到FireFox搜索框中 它会自动为包含的文件编制索引,我想你会发现,增强或修复beagle比为Lucene编写自己的搜索界面要高效得多。在这个论坛上回答如

我们公司有数千份PDF文档。我们如何使用Lucene、Solr或Nutch创建一个简单的搜索引擎?我们将提供一个基本的Java/JSP网页,人们可以输入单词并执行基本的和/或查询,然后向他们显示所有匹配PDF的文档链接。

如果您有Linux服务器,您可以使用它来索引它们,然后只使用它附带的搜索功能。它有一个(实验性的)web搜索界面,也可以连接到FireFox搜索框中


它会自动为包含的文件编制索引,我想你会发现,增强或修复beagle比为Lucene编写自己的搜索界面要高效得多。

在这个论坛上回答如此广泛的问题将非常困难。我建议你看看这本书,它以一种可读的方式介绍了索引和搜索的基础知识

考虑到您的应用程序,听起来可能不需要Nutch和Solr。由于您的所有文档都在本地可用,Nutch可能不会有什么帮助。如果您有很高的查询负载,Solr可以帮助您管理搜索器集群,但是Lucene具有很高的性能,并且以非常可伸缩的方式处理大型文档集

一个可能会耗费大量精力的领域是PDF的使用。可以为PDF文档编制索引,但根据文档的不同,结果的质量可能会有所不同。通常,PDF文档中关键字的上下文由于格式说明而不清楚,这会使进行邻近搜索或显示命中内容变得困难。

请看一看。它包括一个用于添加新文档、自动索引和缩略图PDF的工作流,并具有相当全面的全文搜索功能。它也可以很容易地定制和品牌


为什么要重新发明轮子。再次说明。

我在一台稍旧的G5上使用Mac电脑,这具有明显的优势。MacOS的内置索引服务spotlight提供了很好的web界面。

谷歌搜索设备

我在lucene方面运气不错,但这不是单击、安装和搜索,它确实需要一些工作。

如果您需要可以在10分钟内下载、安装并搜索的内容,请查看免费的Ominifind Yahoo版本,它使用Lucene,但经过打包,可以配置并准备在安装时运行,这是一种更容易尝试Lucene的方法。

Lucene系列中的任何项目都不能以本机方式处理PDF,但是有一些实用程序,你可以顺便看看,还有一些写得很好的例子,告诉你如何自己开发

Lucene几乎可以做任何你需要做的事情,但正如Tony在上面所说的,在你的时间方面有开销。数以千计的文档实际上并没有那么多,所以您可以选择一种更轻的文档


话虽如此,我还是建议您看看Solr——它比Lucene容易得多,支持备份、复制等,还有一个漂亮的JSON接口,非常适合您的用例:

我想您需要一个系统来管理您的PDF文件。请尝试使用dspace系统。Dspace是一个数字图书馆,它支持基于的Lucene。www.dspace.org.

在Nutch中启用的Nutch+Lucene+Pdf插件是您的解决方案。Nutch允许您通过启用pdf插件来解析pdf

Lucene将允许您为爬网和解析的数据编制索引,Nutch拥有servelet,它为您提供了一个搜索界面


我们在内部局域网中也使用相同的技术。

您可能会看到一个很棒的免费搜索技术是IBM Yahoo!免费搜索。我不确定他们是否遵守了秘密使用Lucene的计划,但它仍然是使用免费搜索技术的真正伟大的东方之一。我相信,它可以处理多达500K个文档,还支持PDF和其他非文本格式。图形用户界面;易于自定义搜索结果和基本搜索分析。基本的同义词表和强大的API,因此,如果开箱即用的结果不符合您的喜好,您可以做任何您想做的事情。我们已经向一些文档不到50万的客户建议了这一点,他们喜欢这一点。

我也不理解反对票。GSA正是你所需要的。它不仅会索引你所有的PDF文件,还会索引你的整个内联网,它会提供比Lucene更好的搜索结果。+1的否决票是相当不公平的。除了暗示OP可能正在寻找“免费”解决方案外,GSA对于这类应用来说是一个值得考虑的因素……在这种情况下,下行投票是一种困难。但我认为评论者可以提供比url多一点的信息。Solr1.4将解析PDF和MS Word文档。