我们如何使用Lucene、Solr或Nutch创建一个简单的搜索引擎？_Lucene_Solr_Nutch

我们如何使用Lucene、Solr或Nutch创建一个简单的搜索引擎？

lucene solr

我们如何使用Lucene、Solr或Nutch创建一个简单的搜索引擎？,lucene,solr,nutch,Lucene,Solr,Nutch,我们公司有数千份PDF文档。我们如何使用Lucene、Solr或Nutch创建一个简单的搜索引擎？我们将提供一个基本的Java/JSP网页，人们可以输入单词并执行基本的和/或查询，然后向他们显示所有匹配PDF的文档链接。如果您有Linux服务器，您可以使用它来索引它们，然后只使用它附带的搜索功能。它有一个（实验性的）web搜索界面，也可以连接到FireFox搜索框中它会自动为包含的文件编制索引，我想你会发现，增强或修复beagle比为Lucene编写自己的搜索界面要高效得多。在这个论坛上回答如

我们公司有数千份PDF文档。我们如何使用Lucene、Solr或Nutch创建一个简单的搜索引擎？我们将提供一个基本的Java/JSP网页，人们可以输入单词并执行基本的和/或查询，然后向他们显示所有匹配PDF的文档链接。

如果您有Linux服务器，您可以使用它来索引它们，然后只使用它附带的搜索功能。它有一个（实验性的）web搜索界面，也可以连接到FireFox搜索框中

它会自动为包含的文件编制索引，我想你会发现，增强或修复beagle比为Lucene编写自己的搜索界面要高效得多。

在这个论坛上回答如此广泛的问题将非常困难。我建议你看看这本书，它以一种可读的方式介绍了索引和搜索的基础知识

考虑到您的应用程序，听起来可能不需要Nutch和Solr。由于您的所有文档都在本地可用，Nutch可能不会有什么帮助。如果您有很高的查询负载，Solr可以帮助您管理搜索器集群，但是Lucene具有很高的性能，并且以非常可伸缩的方式处理大型文档集

一个可能会耗费大量精力的领域是PDF的使用。可以为PDF文档编制索引，但根据文档的不同，结果的质量可能会有所不同。通常，PDF文档中关键字的上下文由于格式说明而不清楚，这会使进行邻近搜索或显示命中内容变得困难。

请看一看。它包括一个用于添加新文档、自动索引和缩略图PDF的工作流，并具有相当全面的全文搜索功能。它也可以很容易地定制和品牌

为什么要重新发明轮子。再次说明。

我在一台稍旧的G5上使用Mac电脑，这具有明显的优势。MacOS的内置索引服务spotlight提供了很好的web界面。

谷歌搜索设备

我在lucene方面运气不错，但这不是单击、安装和搜索，它确实需要一些工作。

如果您需要可以在10分钟内下载、安装并搜索的内容，请查看免费的Ominifind Yahoo版本，它使用Lucene，但经过打包，可以配置并准备在安装时运行，这是一种更容易尝试Lucene的方法。

Lucene系列中的任何项目都不能以本机方式处理PDF，但是有一些实用程序，你可以顺便看看，还有一些写得很好的例子，告诉你如何自己开发

Lucene几乎可以做任何你需要做的事情，但正如Tony在上面所说的，在你的时间方面有开销。数以千计的文档实际上并没有那么多，所以您可以选择一种更轻的文档

话虽如此，我还是建议您看看Solr——它比Lucene容易得多，支持备份、复制等，还有一个漂亮的JSON接口，非常适合您的用例：

我想您需要一个系统来管理您的PDF文件。请尝试使用dspace系统。Dspace是一个数字图书馆，它支持基于的Lucene。www.dspace.org.

在Nutch中启用的Nutch+Lucene+Pdf插件是您的解决方案。Nutch允许您通过启用pdf插件来解析pdf

Lucene将允许您为爬网和解析的数据编制索引，Nutch拥有servelet，它为您提供了一个搜索界面

我们在内部局域网中也使用相同的技术。

您可能会看到一个很棒的免费搜索技术是IBM Yahoo！免费搜索。我不确定他们是否遵守了秘密使用Lucene的计划，但它仍然是使用免费搜索技术的真正伟大的东方之一。我相信，它可以处理多达500K个文档，还支持PDF和其他非文本格式。图形用户界面；易于自定义搜索结果和基本搜索分析。基本的同义词表和强大的API，因此，如果开箱即用的结果不符合您的喜好，您可以做任何您想做的事情。我们已经向一些文档不到50万的客户建议了这一点，他们喜欢这一点。

我也不理解反对票。GSA正是你所需要的。它不仅会索引你所有的PDF文件，还会索引你的整个内联网，它会提供比Lucene更好的搜索结果。+1的否决票是相当不公平的。除了暗示OP可能正在寻找“免费”解决方案外，GSA对于这类应用来说是一个值得考虑的因素……在这种情况下，下行投票是一种困难。但我认为评论者可以提供比url多一点的信息。Solr1.4将解析PDF和MS Word文档。