lucene索引匹配

lucene索引匹配,lucene,match,Lucene,Match,我正在尝试使用Lucene进行解组或重复数据消除匹配。基本上,我有一个包含记录的文件,我希望根据某些字段(模糊搜索)对这些记录进行分组,并使用匹配键返回结果,该键告诉我该文件中哪些记录彼此匹配 这可能吗?这是可以做到的(如果我理解正确的话)。您可以索引将在一次过程中搜索的术语/记录。在第二步中,您将搜索每个术语并记录结果 在预处理文档时,您可以生成一个散列来聚合这些字段,并将其存储(如NOT_analysis),这样您只需按一个已知大小的字段进行搜索,请查看。这是我通常对文件内容的重复检测所做的

我正在尝试使用Lucene进行解组或重复数据消除匹配。基本上,我有一个包含记录的文件,我希望根据某些字段(模糊搜索)对这些记录进行分组,并使用匹配键返回结果,该键告诉我该文件中哪些记录彼此匹配


这可能吗?

这是可以做到的(如果我理解正确的话)。您可以索引将在一次过程中搜索的术语/记录。在第二步中,您将搜索每个术语并记录结果

在预处理文档时,您可以生成一个散列来聚合这些字段,并将其存储(如
NOT_analysis
),这样您只需按一个已知大小的字段进行搜索,请查看。这是我通常对文件内容的重复检测所做的(因为对于单个查询来说,内容可能太大)


如果要创建更复杂的查询,请尝试使用,这样对重复数据消除算法的后续调用会快得多。

您尝试了什么?你是如何使用lucene的(它有很多不同语言/框架的版本)?帮助我们帮助你。我正在使用Java Lucene 3.6。我可以在索引后循环输入文件,并根据我感兴趣的字段上的索引进行搜索。这似乎效率低下,因此我想知道是否有一种有效的方法来匹配索引中的文档。