Java ApacheLucene：如何将集合索引转换为另一种格式？_Java_Lucene

Java ApacheLucene：如何将集合索引转换为另一种格式？

java lucene

Java ApacheLucene：如何将集合索引转换为另一种格式？,java,lucene,Java,Lucene,我需要将ApacheLucene生成的索引转换为另一个集合表示我目前有一个具有许多属性的文档集合我需要从中创建具有相似性度量的文档对，以便将它们传递给分类器你知道我可以用什么教程来做这个吗谢谢相似性度量需要基于查询。i、你查询你的Lucene文档集，你会得到一组带有相对分数的文档如果您想将每个文档与其他文档进行比较（是这样吗？很难从问题中分辨），那么您需要使用每个文档的一个特性作为查询的基础例如，您可以从每个文档中提取前N个术语（按频率，不包括停止词）。如果您有X个文档，那么您将有

我需要将ApacheLucene生成的索引转换为另一个集合表示

我目前有一个具有许多属性的文档集合

我需要从中创建具有相似性度量的文档对，以便将它们传递给分类器

你知道我可以用什么教程来做这个吗

谢谢

相似性度量需要基于查询。i、你查询你的Lucene文档集，你会得到一组带有相对分数的文档

如果您想将每个文档与其他文档进行比较（是这样吗？很难从问题中分辨），那么您需要使用每个文档的一个特性作为查询的基础

例如，您可以从每个文档中提取前N个术语（按频率，不包括停止词）。如果您有X个文档，那么您将有X个查询。然后对索引执行每个X查询，并返回每个文档彼此之间的相对相似性。这是一个可以用于分类的矩阵

另一种选择是使用每个文档的标题或摘要作为查询的基础（同样，不包括停止）。

谢谢，您完全理解我的意思。那么，我应该为每个文档运行一个查询吗？接下来，我将把结果保存在一个结构化文件中，以传递给分类器。实际上，我已经有了一个结构化的xml输入，每个文档都有描述、标记和地理位置信息。对于描述，我将使用tf.idf余弦相似性，对于地理标记，我需要实现Harvesine相似性。我不知道如何整合这些相似性度量。。我现在只使用tf.idf，它应该在Lucene中实现。如果你知道任何教程。。。非常欢迎，因为我没有Lucene方面的经验……是的，Lucene中的默认评分函数使用tdf.if和余弦相似性，因此您可以直接使用它。不过你可以定制它。也可以看到ok thnaks。那么复杂的查询呢？你知道，我正在传递一个文档作为查询。这意味着我有几个带有文本描述的字段（我应该以不同的方式处理，即只在其中的几个字段上使用stopwords），然后我有另一个带有地理坐标的数字字段。我应该将所有这些内容打包到我的查询中。另外，我应该使用MatchAllDocsQuery来获取所有集合文档的所有相似性值吗？