Java ApacheLucene:如何将集合索引转换为另一种格式?

Java ApacheLucene:如何将集合索引转换为另一种格式?,java,lucene,Java,Lucene,我需要将ApacheLucene生成的索引转换为另一个集合表示 我目前有一个具有许多属性的文档集合 我需要从中创建具有相似性度量的文档对,以便将它们传递给分类器 你知道我可以用什么教程来做这个吗 谢谢相似性度量需要基于查询。i、 你查询你的Lucene文档集,你会得到一组带有相对分数的文档 如果您想将每个文档与其他文档进行比较(是这样吗?很难从问题中分辨),那么您需要使用每个文档的一个特性作为查询的基础 例如,您可以从每个文档中提取前N个术语(按频率,不包括停止词)。如果您有X个文档,那么您将有

我需要将ApacheLucene生成的索引转换为另一个集合表示

我目前有一个具有许多属性的文档集合

我需要从中创建具有相似性度量的文档对,以便将它们传递给分类器

你知道我可以用什么教程来做这个吗


谢谢

相似性度量需要基于查询。i、 你查询你的Lucene文档集,你会得到一组带有相对分数的文档

如果您想将每个文档与其他文档进行比较(是这样吗?很难从问题中分辨),那么您需要使用每个文档的一个特性作为查询的基础

例如,您可以从每个文档中提取前N个术语(按频率,不包括停止词)。如果您有X个文档,那么您将有X个查询。然后对索引执行每个X查询,并返回每个文档彼此之间的相对相似性。这是一个可以用于分类的矩阵


另一种选择是使用每个文档的标题或摘要作为查询的基础(同样,不包括停止)。

谢谢,您完全理解我的意思。那么,我应该为每个文档运行一个查询吗?接下来,我将把结果保存在一个结构化文件中,以传递给分类器。实际上,我已经有了一个结构化的xml输入,每个文档都有描述、标记和地理位置信息。对于描述,我将使用tf.idf余弦相似性,对于地理标记,我需要实现Harvesine相似性。我不知道如何整合这些相似性度量。。我现在只使用tf.idf,它应该在Lucene中实现。如果你知道任何教程。。。非常欢迎,因为我没有Lucene方面的经验……是的,Lucene中的默认评分函数使用tdf.if和余弦相似性,因此您可以直接使用它。不过你可以定制它。也可以看到ok thnaks。那么复杂的查询呢?你知道,我正在传递一个文档作为查询。这意味着我有几个带有文本描述的字段(我应该以不同的方式处理,即只在其中的几个字段上使用stopwords),然后我有另一个带有地理坐标的数字字段。我应该将所有这些内容打包到我的查询中。另外,我应该使用MatchAllDocsQuery来获取所有集合文档的所有相似性值吗?