Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/java/326.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java 创建lucene索引时,如何设置最小术语频率?_Java_Lucene - Fatal编程技术网

Java 创建lucene索引时,如何设置最小术语频率?

Java 创建lucene索引时,如何设置最小术语频率?,java,lucene,Java,Lucene,首先,我不得不说我对Lucene完全陌生,因此我的问题可能有点愚蠢 我想做的是创建一个索引,其中包含在文档中至少出现特定次数的术语。我之所以想这样做,是因为我试图搜索一个只出现两次的术语,结果为零。我试图找到我可以调整这个参数的地方,但没有成功。我看了一下使用的索引,似乎这个术语没有出现在索引文件中 我必须使用的Lucene版本是2.0,因为我必须使用另一个只适用于2.0版索引文件的库 对于这个问题,如果有任何提示,我将不胜感激。多谢各位 根据您对我评论的回答,您可以通过创建analyzer来管

首先,我不得不说我对Lucene完全陌生,因此我的问题可能有点愚蠢

我想做的是创建一个索引,其中包含在文档中至少出现特定次数的术语。我之所以想这样做,是因为我试图搜索一个只出现两次的术语,结果为零。我试图找到我可以调整这个参数的地方,但没有成功。我看了一下使用的索引,似乎这个术语没有出现在索引文件中

我必须使用的Lucene版本是2.0,因为我必须使用另一个只适用于2.0版索引文件的库


对于这个问题,如果有任何提示,我将不胜感激。多谢各位

根据您对我评论的回答,您可以通过创建analyzer来管理stop word字典


您是否可能在寻找属于噪音字典的术语?这绝对是可能的,是的!有没有办法改变Lucene在噪音方面的行为?谢谢你的回答,但我担心这个问题与stopwords无关。我认为问题在于,我想搜索的术语在文档中只出现了2次,我认为正因为如此,Lucene没有将其添加到索引中。我的索引只有大约350个单词,其中包括“和”、“或”、“或”…@zlajo在索引中检查单词的方式是什么。lucene很好地提取了独特的单词(在您的例子中是2个)。所以这不是问题。另一个问题是lucene可以过滤少于3个字母的单词。以任何方式-尝试在350集合中添加+10个相同的单词来检查此问题。lucene是否通常将任何单词排除在索引之外(短于3个字母的单词除外)?也许有一种方法可以配置这些规则,这些规则决定一个单词是否应该添加到索引中。谢谢@zlajo当然,Lucene的这一部分是由标记器完成的。因此,选择适当的实现(例如LetterTokenizer)或根据需要配置StandartTokenizer