Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/algorithm/12.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Algorithm 搜索引擎停止词-最佳实践_Algorithm_Search Engine_<img Src="//i.stack.imgur.com/RUiNP.png" Height="16" Width="18" Alt="" Class="sponsor Tag Img">elasticsearch_Information Retrieval_Stop Words - Fatal编程技术网 elasticsearch,information-retrieval,stop-words,Algorithm,Search Engine,elasticsearch,Information Retrieval,Stop Words" /> elasticsearch,information-retrieval,stop-words,Algorithm,Search Engine,elasticsearch,Information Retrieval,Stop Words" />

Algorithm 搜索引擎停止词-最佳实践

Algorithm 搜索引擎停止词-最佳实践,algorithm,search-engine,elasticsearch,information-retrieval,stop-words,Algorithm,Search Engine,elasticsearch,Information Retrieval,Stop Words,在为搜索引擎分析文档时,通常不索引所谓的停止词。停止词是语言中经常出现的常用词,如a、the和this。这个想法是,如果停止词被编入索引,它们会占用索引中太多的空间,并且不会对搜索结果的质量产生什么影响 我想知道情况是否总是这样 在现代搜索引擎中,索引停止词是否会导致索引大小爆炸?或者这只是一个边际增长 此外,删除停止词如何影响短语搜索?寻找“披头士”和“披头士”似乎是两码事 我正在用elasticsearch构建一个应用程序,但这个问题同样适用于Solr、direct lucene或任何其他变

在为搜索引擎分析文档时,通常不索引所谓的停止词。停止词是语言中经常出现的常用词,如
a
the
this
。这个想法是,如果停止词被编入索引,它们会占用索引中太多的空间,并且不会对搜索结果的质量产生什么影响

我想知道情况是否总是这样

在现代搜索引擎中,索引停止词是否会导致索引大小爆炸?或者这只是一个边际增长

此外,删除停止词如何影响短语搜索?寻找“披头士”和“披头士”似乎是两码事

我正在用elasticsearch构建一个应用程序,但这个问题同样适用于Solr、direct lucene或任何其他变体

  • 停止词的主要问题不是索引大小,而是答案的质量。它们往往占主导地位(具有非常高的值,因此可能会使返回的结果出错),而不是索引的大小。
    在任何情况下,索引停止词都不会显著增加索引的大小(而且它肯定不会“爆炸”)

  • 克服这个问题的一种方法是在索引时使用停止词(而不是完全省略它们)。我不知道它是否真的在做,但它肯定能帮助改进返回的结果


  • 另外:停止词并不总是被省略。例如,在讽刺检测器中,似乎(根据经验)停止词对答案非常重要。

    我认为所有搜索引擎处理这个问题的方式都不同。 您可以在以下网站阅读这些内容:


    但是,如果你只是一个开发(小型)应用程序的人,我认为你不应该关注这些小细节,而应该忽略这些词,而是关注更相关的词

    谷歌的“披头士”和“披头士”(不带“”)给出了相同的结果,所以我猜“the”确实被忽略了。当我测试同一个东西时,它得到了382.000.000和232.000.000结果。所以有区别。但是,我不知道它值多少钱。@TysHTTP:一般来说,“点击数”是不可靠的(由于搜索引擎的优化,当它确定前K应该是什么时,它会停止搜索并停止对“找到的结果”进行MIDI)。虽然我不知道这是不是真的,我想不是。