Database 板条箱全文搜索中的停止字
我正在为一家德国新闻网站使用Crate,并广泛使用全文搜索(这通常工作得很好)。然而,我想知道停止词的用法。我想尽量减少这种情况,因为搜索速度非常快,所以我不太担心性能。这样做明智吗?还有:默认情况下,哪些停止词会被使用?是否有一个内置停止词列表?内置词实际上来自lucene,并且位于Database 板条箱全文搜索中的停止字,database,full-text-search,crate,Database,Full Text Search,Crate,我正在为一家德国新闻网站使用Crate,并广泛使用全文搜索(这通常工作得很好)。然而,我想知道停止词的用法。我想尽量减少这种情况,因为搜索速度非常快,所以我不太担心性能。这样做明智吗?还有:默认情况下,哪些停止词会被使用?是否有一个内置停止词列表?内置词实际上来自lucene,并且位于 lucene分析器公共*.jar文件,位于板条箱的lib目录中 柏油球 如果提取jar文件的内容,您将发现一个名为 包含所有德语停止字的german_stop.txt lucene源代码中还有一组单词,标记为 已
lucene分析器公共*.jar
文件,位于板条箱的lib目录中
柏油球
如果提取jar文件的内容,您将发现一个名为
包含所有德语停止字的german_stop.txt
lucene源代码中还有一组单词,标记为
已弃用,因此我认为它不再使用。这些话将是:
"einer", "eine", "eines", "einem", "einen",
"der", "die", "das", "dass", "daß",
"du", "er", "sie", "es",
"was", "wer", "wie", "wir",
"und", "oder", "ohne", "mit",
"am", "im", "in", "aus", "auf",
"ist", "sein", "war", "wird",
"ihr", "ihre", "ihres",
"als", "für", "von", "mit",
"dich", "dir", "mich", "mir",
"mein", "sein", "kein",
"durch", "wegen", "wird"
我认为违约已经足够好了,除非你遇到一些麻烦
具体词语我看不出有什么理由调整停止词语。谢谢,找到了!我想调整这一点的原因是搜索精度。停止字对于减少索引大小非常有用,但因为我现在不担心性能,所以我想购买一些搜索精度,以获得一点额外的负载。(例如,考虑寻找短语“Von EeNm ZUM ANDERN”),这些词都是“停止词”。我会做一些实验。。。