Warning: file_get_contents(/data/phpspider/zhask/data//catemap/5/url/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Search 搜索词建议_Search_Lucene_Sphinx_Spell Checking - Fatal编程技术网

Search 搜索词建议

Search 搜索词建议,search,lucene,sphinx,spell-checking,Search,Lucene,Sphinx,Spell Checking,这个问题以前曾被以各种方式提出过,但我想知道有自动搜索词建议经验的人是否可以就最有用和有效的方法提供建议。以下是场景: 我刚开始在一个网站上读一本书,这本书是一本术语词典(大约有1000条条目,平均有300个单词的解释),其中许多内容都相当晦涩难懂,而且很多网站访问者可能不知道如何拼写这些单词。出版商希望对每个条目进行全文搜索。所以,我希望实现一个拼写更正的搜索引擎。主站点可能会在PHP框架(或者可能是Django)中使用MySQL数据库完成 在这方面有经验的人能否就以下方面提供建议: 有了这

这个问题以前曾被以各种方式提出过,但我想知道有自动搜索词建议经验的人是否可以就最有用和有效的方法提供建议。以下是场景:

我刚开始在一个网站上读一本书,这本书是一本术语词典(大约有1000条条目,平均有300个单词的解释),其中许多内容都相当晦涩难懂,而且很多网站访问者可能不知道如何拼写这些单词。出版商希望对每个条目进行全文搜索。所以,我希望实现一个拼写更正的搜索引擎。主站点可能会在PHP框架(或者可能是Django)中使用MySQL数据库完成

在这方面有经验的人能否就以下方面提供建议:

  • 有了这样一套语料库,我应该使用类似或用于搜索引擎的东西吗
  • 据我所知,这两种方法都没有内置的建议功能。因此,我似乎需要整合以下一个或多个方面。以下各项的优点/缺点是什么:
    • 透过
    • 类似PHP中的语音比较算法
    • 像这样的拼写检查系统
    • 更简单的拼写脚本,如
    • Levenshtein函数

我担心我的语料库的特殊性,不希望谷歌开始提出与本书无关的东西。我也不确定是否应该同时使用一个比喻和一个LevsHeTin比较,或者一些其他的技术组合来捕获拼写错误和语音拼写的尝试。

你可能想考虑一下,这是Lucene的一个Web服务封装,并且运行在像Tomcat这样的J2EE容器中。您将得到术语建议、拼写检查、移植、词干分析等。真的很好

有关其与查询相关的功能的完整列表,请参见

Solr有两个数据库和库

无论如何,我不建议使用谷歌建议来创建这样一个专门的语料库,而有了Solr,你就不需要它了


希望这有帮助。

+1代表Solr。你会得到很多你想要的,然后是一些。谢谢,因为某种原因我还没有遇到索尔。看起来真的很有用。还感谢您证实我对Google Suggest的怀疑。Tomcat不是一个J2EE容器,它只是一个Servlet容器,尽管Tomcat确实支持一些J2EE规范。顺便说一句,对于像我这样刚刚涉足这一领域的人,这是一篇关于在共享主机上安装Solr的论坛帖子(WebFaction):“坏消息是Solr相对内存不足(Django plus Solr将我的内存使用量发送到了204 MB),因此无法在几乎所有共享主机选项上可靠运行。”