Java Commons Digester:如何使用ApacheLucene构建复杂的、基于XML的查询?

Java Commons Digester:如何使用ApacheLucene构建复杂的、基于XML的查询?,java,lucene,apache-commons-digester,Java,Lucene,Apache Commons Digester,我需要使用ApacheLucene和CommonsDigester构建一个基于XML的查询 我的文档有以下格式: <doc> <id>361492799</id> <title>Dan1</title> <description>We had another Flickr meetup in Rochester, the biggest that Ive been to. 12 people showed up.Da, he

我需要使用ApacheLucene和CommonsDigester构建一个基于XML的查询

我的文档有以下格式:

<doc>
<id>361492799</id>
<title>Dan1</title>
<description>We had another Flickr meetup in Rochester, the biggest that Ive been to. 12 people showed up.Da, he was to the right.</description>
<time>18934934</time>
<tags>flickrmeetup rochester dan totheright 200701</tags>
<geo><latitude>324234</latitude><longitude>28342349</longitude></geo>
<event>135961</event>
</doc>

361492799
丹1
我们在罗切斯特又开了一次Flickr聚会,是我去过的最大的一次。12个人出现了,爸爸,他在右边。
18934934
Flickr设置罗切斯特和托特莱特200701
32423428342349
135961
这个查询实际上也是一个文档,我需要与整个集合进行比较。每个属性都有不同的相似性度量。例如,“描述”具有tf-idf余弦相似性。“时间”就是差,“纬度”+“经度”是用哈弗森距离来比较的

目前,我只使用简单的文本查询(如“word1 word2”)执行搜索。如何构建更复杂的查询


谢谢你看过SOLR了吗?SOLR基本上是Lucene+一个完整的基于XML的查询和索引服务器

我需要使用 ApacheLucene和Commons消化器

这应该可以帮助你开始

要分析xml中的内容,请查看

ApacheTika-内容分析 工具箱

阿帕奇提卡™ 是一个用于 检测和提取元数据和 来自不同领域的结构化文本内容 使用现有解析器的文档 图书馆


谢谢,我已经解决了问题的第一部分,即数据解析。我现在需要构建一个与文档具有相同(XML)结构的查询。你知道我该怎么做吗?thanksI实际上不再需要解析器,而是使用集合文档的相同XML结构构建查询