Algorithm 搜索引擎停止词-最佳实践
在为搜索引擎分析文档时,通常不索引所谓的停止词。停止词是语言中经常出现的常用词,如Algorithm 搜索引擎停止词-最佳实践,algorithm,search-engine,
elasticsearch,information-retrieval,stop-words,Algorithm,Search Engine,
elasticsearch,Information Retrieval,Stop Words,在为搜索引擎分析文档时,通常不索引所谓的停止词。停止词是语言中经常出现的常用词,如a、the和this。这个想法是,如果停止词被编入索引,它们会占用索引中太多的空间,并且不会对搜索结果的质量产生什么影响 我想知道情况是否总是这样 在现代搜索引擎中,索引停止词是否会导致索引大小爆炸?或者这只是一个边际增长 此外,删除停止词如何影响短语搜索?寻找“披头士”和“披头士”似乎是两码事 我正在用elasticsearch构建一个应用程序,但这个问题同样适用于Solr、direct lucene或任何其他变
a
、the
和this
。这个想法是,如果停止词被编入索引,它们会占用索引中太多的空间,并且不会对搜索结果的质量产生什么影响
我想知道情况是否总是这样
在现代搜索引擎中,索引停止词是否会导致索引大小爆炸?或者这只是一个边际增长
此外,删除停止词如何影响短语搜索?寻找“披头士”和“披头士”似乎是两码事
我正在用elasticsearch构建一个应用程序,但这个问题同样适用于Solr、direct lucene或任何其他变体
在任何情况下,索引停止词都不会显著增加索引的大小(而且它肯定不会“爆炸”)
另外:停止词并不总是被省略。例如,在讽刺检测器中,似乎(根据经验)停止词对答案非常重要。我认为所有搜索引擎处理这个问题的方式都不同。 您可以在以下网站阅读这些内容:
但是,如果你只是一个开发(小型)应用程序的人,我认为你不应该关注这些小细节,而应该忽略这些词,而是关注更相关的词 谷歌的“披头士”和“披头士”(不带“”)给出了相同的结果,所以我猜“the”确实被忽略了。当我测试同一个东西时,它得到了382.000.000和232.000.000结果。所以有区别。但是,我不知道它值多少钱。@TysHTTP:一般来说,“点击数”是不可靠的(由于搜索引擎的优化,当它确定前K应该是什么时,它会停止搜索并停止对“找到的结果”进行MIDI)。虽然我不知道这是不是真的,我想不是。