Indexing 斯芬克斯指数下跌?

Indexing 斯芬克斯指数下跌?,indexing,sphinx,sp,Indexing,Sphinx,Sp,我需要启用Sphinx的index_sp(句子和段落索引功能),以便我可以执行“Word1句子Word2”搜索,即在同一个句子中存在两个单词的搜索,因为它当前不起作用,并且根据文档,这是句子操作符的要求 然而,由于Sphinx在匹配方面非常微妙,无论是否与功能组合,而且它是一个非内置选项,我想知道是否有经验的人可以告诉我,除了索引的大小/速度之外,还有哪些可能的缺点,可能是因为我讨厌破坏工作匹配。关于扩展查询语法的情况。无论如何,你几乎肯定在使用它。这是sphinx唯一的模式(尽管如此,早期版本

我需要启用Sphinx的index_sp(句子和段落索引功能),以便我可以执行“Word1句子Word2”搜索,即在同一个句子中存在两个单词的搜索,因为它当前不起作用,并且根据文档,这是句子操作符的要求


然而,由于Sphinx在匹配方面非常微妙,无论是否与功能组合,而且它是一个非内置选项,我想知道是否有经验的人可以告诉我,除了索引的大小/速度之外,还有哪些可能的缺点,可能是因为我讨厌破坏工作匹配。

关于扩展查询语法的情况。无论如何,你几乎肯定在使用它。这是sphinx唯一的模式(尽管如此,早期版本确实有多种查询模式) ... 所以它本身就不应该可怕

index_sp可能存在更大的问题,它是由HTML剥离器实现的,因此也需要启用HTML_strip=1。这很可能会改变查询的行为。(如果仍然有HTML!)

唯一知道索引可能影响事情的地方是“跨句短语匹配”

如果没有index_sp,像“一两”这样的查询将匹配文本[1.2],但如果使用index_sp,则不会匹配。我喜欢这个。已经分裂成句子,所以不再匹配“短语”wise。这可能是一件好事,但却是一种改变。
在某些情况下,这可能会影响并非真正的句子分隔符的事物。这是一个很好的例子。当它不是一个句号的时候,可以打断句子。狮身人面像是一个相对较好的制动语句算法,但并不完美。

谢谢你的提醒。剥离HTML可能会打乱我所拥有的许多其他模式匹配。我将制作一个二级索引,然后应用这个html剥离器索引,看看我能做多少,谢谢