Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/jsp/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java Lucene索引html文档_Java_Lucene - Fatal编程技术网

Java Lucene索引html文档

Java Lucene索引html文档,java,lucene,Java,Lucene,我想在Lucene中索引100万个html文档。我需要在一个Lucene文档中索引几个html文件。最近,我想知道搜索响应中的原始html文档 例如,我有: 1.home.html 2.history.html 3.about.html 4.home2.html ... 我想在同一个Lucene文档中索引1、2和3。然后,如果我搜索任何我想知道原始文档的文本(家庭、历史或关于) 我一直在网上搜索,发现了Lucene的有效载荷。因此,我一直在考虑在所有术语中为原始文档的url编制索引。这是一个

我想在Lucene中索引100万个html文档。我需要在一个Lucene文档中索引几个html文件。最近,我想知道搜索响应中的原始html文档

例如,我有:

1.home.html
2.history.html
3.about.html

4.home2.html
...
我想在同一个Lucene文档中索引1、2和3。然后,如果我搜索任何我想知道原始文档的文本(家庭、历史或关于)

我一直在网上搜索,发现了Lucene的有效载荷。因此,我一直在考虑在所有术语中为原始文档的url编制索引。这是一个好的解决方案吗?演出可以吗


非常感谢您的帮助。

我想您需要的是ApacheSolr,它使用Lucene作为索引引擎,并具有用于搜索的查询/web界面


看看这个网站上的教程

我花了两天时间研究这个问题,我想我找到了解决办法

我使用ID为一个文档中的每个html页面编制索引,例如:

1.home.html     id1  htmlcontent
2.history.html  id1  htmlcontent
3.about.html    id1  htmlcontent

4.home2.html    id2  htmlcontent
...
最近,我可以使用org.apache.lucene.search.grouping按此id对结果进行分组


希望这对任何人都有帮助:)

它们是两种不同的lucene功能:

1.分组:允许按指定字段对搜索结果进行分组。例如,如果按“作者”字段分组,则“作者”字段中具有相同值的所有文档都会归入一个组。您将有一种树作为输出

2.facet:此功能不会对文档进行分组,它只是告诉您有多少文档属于facet的特定值。例如,如果您有一个基于author字段的facet,您将收到所有作者的列表,对于每个作者,您将知道有多少文档属于该特定作者。之后,如果您想查看这些文档,您必须再查询一次,添加一个特定的过滤器(author=where)。分面搜索实际上是基于浏览文档,应用多个过滤器逐步访问您真正感兴趣的文档

这里有一些教程


只需仔细检查并根据您的需要进行计算

您只存储html文件的名称或html文件的全部内容?有效负载可能会提供一个可接受的解决方案。一个好的解决方案是将页面存储为单独的文档。为什么要为同一文档中的这三个页面编制索引?我正在存储文档的全部内容,同时还希望存储文档的名称。我已经实现了分离页面解决方案,它工作得很好,但是我需要按组搜索(例如:home、history和about),正如我之前所说的,我找到的唯一方法是使用有效负载。那么有效负载和突出显示段落呢?可以吗?我正在使用Hibernate搜索作为核心库,我希望继续使用它而不包括任何其他应用程序。我知道Solr,但现在我要尽量避免它…谢谢!目前,Lucene分组扩展似乎一切正常。谢谢你的帮助!