Java Lucene索引html文档_Java_Lucene

Java Lucene索引html文档

java lucene

Java Lucene索引html文档,java,lucene,Java,Lucene,我想在Lucene中索引100万个html文档。我需要在一个Lucene文档中索引几个html文件。最近，我想知道搜索响应中的原始html文档例如，我有： 1.home.html 2.history.html 3.about.html 4.home2.html ... 我想在同一个Lucene文档中索引1、2和3。然后，如果我搜索任何我想知道原始文档的文本（家庭、历史或关于）我一直在网上搜索，发现了Lucene的有效载荷。因此，我一直在考虑在所有术语中为原始文档的url编制索引。这是一个

我想在Lucene中索引100万个html文档。我需要在一个Lucene文档中索引几个html文件。最近，我想知道搜索响应中的原始html文档

例如，我有：

1.home.html
2.history.html
3.about.html

4.home2.html
...

我想在同一个Lucene文档中索引1、2和3。然后，如果我搜索任何我想知道原始文档的文本（家庭、历史或关于）

我一直在网上搜索，发现了Lucene的有效载荷。因此，我一直在考虑在所有术语中为原始文档的url编制索引。这是一个好的解决方案吗？演出可以吗

非常感谢您的帮助。

我想您需要的是ApacheSolr，它使用Lucene作为索引引擎，并具有用于搜索的查询/web界面

看看这个网站上的教程

我花了两天时间研究这个问题，我想我找到了解决办法

我使用ID为一个文档中的每个html页面编制索引，例如：

1.home.html     id1  htmlcontent
2.history.html  id1  htmlcontent
3.about.html    id1  htmlcontent

4.home2.html    id2  htmlcontent
...

最近，我可以使用org.apache.lucene.search.grouping按此id对结果进行分组

希望这对任何人都有帮助：）

它们是两种不同的lucene功能：

1.分组：允许按指定字段对搜索结果进行分组。例如，如果按“作者”字段分组，则“作者”字段中具有相同值的所有文档都会归入一个组。您将有一种树作为输出

2.facet：此功能不会对文档进行分组，它只是告诉您有多少文档属于facet的特定值。例如，如果您有一个基于author字段的facet，您将收到所有作者的列表，对于每个作者，您将知道有多少文档属于该特定作者。之后，如果您想查看这些文档，您必须再查询一次，添加一个特定的过滤器（author=where）。分面搜索实际上是基于浏览文档，应用多个过滤器逐步访问您真正感兴趣的文档

这里有一些教程

只需仔细检查并根据您的需要进行计算

您只存储html文件的名称或html文件的全部内容？有效负载可能会提供一个可接受的解决方案。一个好的解决方案是将页面存储为单独的文档。为什么要为同一文档中的这三个页面编制索引？我正在存储文档的全部内容，同时还希望存储文档的名称。我已经实现了分离页面解决方案，它工作得很好，但是我需要按组搜索（例如：home、history和about），正如我之前所说的，我找到的唯一方法是使用有效负载。那么有效负载和突出显示段落呢？可以吗？我正在使用Hibernate搜索作为核心库，我希望继续使用它而不包括任何其他应用程序。我知道Solr，但现在我要尽量避免它…谢谢！目前，Lucene分组扩展似乎一切正常。谢谢你的帮助！