Lucene 如何为WEB TREC集合编制索引?

Lucene 如何为WEB TREC集合编制索引?,lucene,information-retrieval,Lucene,Information Retrieval,我通过自己下载和解析html页面构建了一个WEB TREC集合。每个TREC文件都包含一个类别字段。如何使用Lucene构建索引,以便在该集合中执行搜索?其思想是,这种搜索可以返回类别,而不是将文档作为结果返回 谢谢大家! 这应该是一项相对简单的任务,因为它们是HTML格式的。因此,您可以在Lucene中对它们进行索引(基于Java的伪代码) GetCategoryName=应该返回类别字符串,并返回相应HTML文件的内容GetContents(…)。从标记中解析HTML内容是一个好主意。有几种

我通过自己下载和解析html页面构建了一个WEB TREC集合。每个TREC文件都包含一个类别字段。如何使用Lucene构建索引,以便在该集合中执行搜索?其思想是,这种搜索可以返回类别,而不是将文档作为结果返回


谢谢大家!

这应该是一项相对简单的任务,因为它们是HTML格式的。因此,您可以在Lucene中对它们进行索引(基于Java的伪代码)

GetCategoryName=应该返回类别字符串,并返回相应HTML文件的内容GetContents(…)。从标记中解析HTML内容是一个好主意。有几种方法可以做到这一点。成为一个

搜索时,搜索内容字段并遍历搜索结果以收集类别


如果你想得到一个附有计数的类别列表(“facets”),请查看facetedsearch。Solr是一个使用Lucene构建的搜索服务器,它提供了开箱即用的功能。

那么,结果不会按类别中的点击数排序吗?我真的很想执行分面搜索。我的目标是,给定一个查询,获得一个类别的加权列表,其中权重是该类别中查询的点击数。我在Contrib目录中找到了lucene.facets。
foreach(file in htmlfiles)
{
 Document d = new Document();
 d.add(new Field("Category", GetCategoryName(...), Field.Store.YES,  Field.Index.NOT_ANALYZED));
d.add(new Field("Contents", GetContents(...), Field.Store.YES, Field.Index.ANALYZED));

writer.addDocument(d);
writer.close();
}