Lucene 如何为WEB TREC集合编制索引？_Lucene_Information Retrieval

Lucene 如何为WEB TREC集合编制索引？

lucene

Lucene 如何为WEB TREC集合编制索引？,lucene,information-retrieval,Lucene,Information Retrieval,我通过自己下载和解析html页面构建了一个WEB TREC集合。每个TREC文件都包含一个类别字段。如何使用Lucene构建索引，以便在该集合中执行搜索？其思想是，这种搜索可以返回类别，而不是将文档作为结果返回谢谢大家! 这应该是一项相对简单的任务，因为它们是HTML格式的。因此，您可以在Lucene中对它们进行索引（基于Java的伪代码） GetCategoryName=应该返回类别字符串，并返回相应HTML文件的内容GetContents（…）。从标记中解析HTML内容是一个好主意。有几种

我通过自己下载和解析html页面构建了一个WEB TREC集合。每个TREC文件都包含一个类别字段。如何使用Lucene构建索引，以便在该集合中执行搜索？其思想是，这种搜索可以返回类别，而不是将文档作为结果返回

谢谢大家!

这应该是一项相对简单的任务，因为它们是HTML格式的。因此，您可以在Lucene中对它们进行索引（基于Java的伪代码）

GetCategoryName=应该返回类别字符串，并返回相应HTML文件的内容GetContents（…）。从标记中解析HTML内容是一个好主意。有几种方法可以做到这一点。成为一个

搜索时，搜索内容字段并遍历搜索结果以收集类别

如果你想得到一个附有计数的类别列表（“facets”），请查看facetedsearch。Solr是一个使用Lucene构建的搜索服务器，它提供了开箱即用的功能。

那么，结果不会按类别中的点击数排序吗？我真的很想执行分面搜索。我的目标是，给定一个查询，获得一个类别的加权列表，其中权重是该类别中查询的点击数。我在Contrib目录中找到了lucene.facets。

foreach(file in htmlfiles)
{
 Document d = new Document();
 d.add(new Field("Category", GetCategoryName(...), Field.Store.YES,  Field.Index.NOT_ANALYZED));
d.add(new Field("Contents", GetContents(...), Field.Store.YES, Field.Index.ANALYZED));

writer.addDocument(d);
writer.close();
}