Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/search/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Database 板条箱全文搜索中的停止字_Database_Full Text Search_Crate - Fatal编程技术网

Database 板条箱全文搜索中的停止字

Database 板条箱全文搜索中的停止字,database,full-text-search,crate,Database,Full Text Search,Crate,我正在为一家德国新闻网站使用Crate,并广泛使用全文搜索(这通常工作得很好)。然而,我想知道停止词的用法。我想尽量减少这种情况,因为搜索速度非常快,所以我不太担心性能。这样做明智吗?还有:默认情况下,哪些停止词会被使用?是否有一个内置停止词列表?内置词实际上来自lucene,并且位于 lucene分析器公共*.jar文件,位于板条箱的lib目录中 柏油球 如果提取jar文件的内容,您将发现一个名为 包含所有德语停止字的german_stop.txt lucene源代码中还有一组单词,标记为 已

我正在为一家德国新闻网站使用Crate,并广泛使用全文搜索(这通常工作得很好)。然而,我想知道停止词的用法。我想尽量减少这种情况,因为搜索速度非常快,所以我不太担心性能。这样做明智吗?还有:默认情况下,哪些停止词会被使用?是否有一个内置停止词列表?

内置词实际上来自lucene,并且位于
lucene分析器公共*.jar
文件,位于板条箱的lib目录中 柏油球

如果提取jar文件的内容,您将发现一个名为 包含所有德语停止字的
german_stop.txt

lucene源代码中还有一组单词,标记为 已弃用,因此我认为它不再使用。这些话将是:

"einer", "eine", "eines", "einem", "einen",
"der", "die", "das", "dass", "daß",
"du", "er", "sie", "es",
"was", "wer", "wie", "wir",
"und", "oder", "ohne", "mit",
"am", "im", "in", "aus", "auf",
"ist", "sein", "war", "wird",
"ihr", "ihre", "ihres",
"als", "für", "von", "mit",
"dich", "dir", "mich", "mir",
"mein", "sein", "kein",
"durch", "wegen", "wird"
我认为违约已经足够好了,除非你遇到一些麻烦
具体词语我看不出有什么理由调整停止词语。

谢谢,找到了!我想调整这一点的原因是搜索精度。停止字对于减少索引大小非常有用,但因为我现在不担心性能,所以我想购买一些搜索精度,以获得一点额外的负载。(例如,考虑寻找短语“Von EeNm ZUM ANDERN”),这些词都是“停止词”。我会做一些实验。。。