Java Lucene索引html文档
我想在Lucene中索引100万个html文档。我需要在一个Lucene文档中索引几个html文件。最近,我想知道搜索响应中的原始html文档 例如,我有:Java Lucene索引html文档,java,lucene,Java,Lucene,我想在Lucene中索引100万个html文档。我需要在一个Lucene文档中索引几个html文件。最近,我想知道搜索响应中的原始html文档 例如,我有: 1.home.html 2.history.html 3.about.html 4.home2.html ... 我想在同一个Lucene文档中索引1、2和3。然后,如果我搜索任何我想知道原始文档的文本(家庭、历史或关于) 我一直在网上搜索,发现了Lucene的有效载荷。因此,我一直在考虑在所有术语中为原始文档的url编制索引。这是一个
1.home.html
2.history.html
3.about.html
4.home2.html
...
我想在同一个Lucene文档中索引1、2和3。然后,如果我搜索任何我想知道原始文档的文本(家庭、历史或关于)
我一直在网上搜索,发现了Lucene的有效载荷。因此,我一直在考虑在所有术语中为原始文档的url编制索引。这是一个好的解决方案吗?演出可以吗
非常感谢您的帮助。我想您需要的是ApacheSolr,它使用Lucene作为索引引擎,并具有用于搜索的查询/web界面
看看这个网站上的教程我花了两天时间研究这个问题,我想我找到了解决办法 我使用ID为一个文档中的每个html页面编制索引,例如:
1.home.html id1 htmlcontent
2.history.html id1 htmlcontent
3.about.html id1 htmlcontent
4.home2.html id2 htmlcontent
...
最近,我可以使用org.apache.lucene.search.grouping按此id对结果进行分组
希望这对任何人都有帮助:)它们是两种不同的lucene功能: 1.分组:允许按指定字段对搜索结果进行分组。例如,如果按“作者”字段分组,则“作者”字段中具有相同值的所有文档都会归入一个组。您将有一种树作为输出 2.facet:此功能不会对文档进行分组,它只是告诉您有多少文档属于facet的特定值。例如,如果您有一个基于author字段的facet,您将收到所有作者的列表,对于每个作者,您将知道有多少文档属于该特定作者。之后,如果您想查看这些文档,您必须再查询一次,添加一个特定的过滤器(author=where)。分面搜索实际上是基于浏览文档,应用多个过滤器逐步访问您真正感兴趣的文档 这里有一些教程
只需仔细检查并根据您的需要进行计算您只存储html文件的名称或html文件的全部内容?有效负载可能会提供一个可接受的解决方案。一个好的解决方案是将页面存储为单独的文档。为什么要为同一文档中的这三个页面编制索引?我正在存储文档的全部内容,同时还希望存储文档的名称。我已经实现了分离页面解决方案,它工作得很好,但是我需要按组搜索(例如:home、history和about),正如我之前所说的,我找到的唯一方法是使用有效负载。那么有效负载和突出显示段落呢?可以吗?我正在使用Hibernate搜索作为核心库,我希望继续使用它而不包括任何其他应用程序。我知道Solr,但现在我要尽量避免它…谢谢!目前,Lucene分组扩展似乎一切正常。谢谢你的帮助!