Lucene 语言语料库搜索引擎

Lucene 语言语料库搜索引擎,lucene,nlp,search-engine,sphinx,information-retrieval,Lucene,Nlp,Search Engine,Sphinx,Information Retrieval,我正试图找到一个好的库来建立一个语言语料库搜索引擎。这样一个引擎必须产生绝对透明的搜索结果(找到的匹配项的确切数量,即使整个语料库匹配也没有结果切割)、基本查询语法(和、或,而不是运算符、距离搜索、通配符搜索)以及细化要搜索的文档集的能力(即,设置次循环)。 一个重要的细节是索引划分和并行执行搜索的能力(语料库的大小为10^8个单词,搜索服务必须是实时的) 主要选择在狮身人面像和Clucene(C++ Lucene端口)之间。不幸的是,我对这些库的组织不太了解,所以知道哪一个更适合我的需求会很有

我正试图找到一个好的库来建立一个语言语料库搜索引擎。这样一个引擎必须产生绝对透明的搜索结果(找到的匹配项的确切数量,即使整个语料库匹配也没有结果切割)、基本查询语法(和、或,而不是运算符、距离搜索、通配符搜索)以及细化要搜索的文档集的能力(即,设置次循环)。 一个重要的细节是索引划分和并行执行搜索的能力(语料库的大小为10^8个单词,搜索服务必须是实时的)

主要选择在狮身人面像和Clucene(C++ Lucene端口)之间。不幸的是,我对这些库的组织不太了解,所以知道哪一个更适合我的需求会很有帮助


(我还尝试了一个专门的引擎——IMS语料库工作台——结果证明它没有必要的可伸缩性)。

我建议设置SOLR服务器,它是Lucene的衍生产品,具有Restful界面。Lucene(SOLR)的新特性在其他同类产品中是无与伦比的。一个包含10^8个不同单词的语料库,可能是一个问题,但我希望它们不是不同的。在我看来,Atmost可能会导致性能上的一些损失。在裸Lucene上并行提供分区和搜索将是一项累赘的工作。SOLR提供了这两个特性。
我不太了解斯芬克斯。但到目前为止,Lucene及其衍生产品处于最前沿。

IMS语料库工作台与CPQWeb接口存在相当多的缺陷。也许你可以试试UPlug,看起来你想要一个C++解决方案。否则,我建议您尝试Solr或ElasticSearch(都是java,都是优秀的!)