最适合在python中处理10000s（格式化）文档的文本索引器_Python_Full Text Search

最适合在python中处理10000s（格式化）文档的文本索引器

python

最适合在python中处理10000s（格式化）文档的文本索引器,python,full-text-search,Python,Full Text Search,我想添加一个功能来搜索存储在目录中的文档。后端是在Python中开发的，用于额外操作搜索结果。文档存储在专用的web服务器中已建立的技术（Lucene、Xapian、Whoosh）具有成熟的python绑定。我的同事已经为他们的客户建立了Apache、Lucene和PHP。我会选择Whoosh，因为它是用Python编写的，但我对它的缓慢性能和缺乏“功能X”的评论感到害怕我的具体要求是：支撑（让我咬指甲）在Python中得到很好的支持主要主机的技术支持可以轻松设置可以很好地扩展多达

我想添加一个功能来搜索存储在目录中的文档。后端是在Python中开发的，用于额外操作搜索结果。文档存储在专用的web服务器中

已建立的技术（Lucene、Xapian、Whoosh）具有成熟的python绑定。我的同事已经为他们的客户建立了Apache、Lucene和PHP。我会选择Whoosh，因为它是用Python编写的，但我对它的缓慢性能和缺乏“功能X”的评论感到害怕

我的具体要求是：

支撑（让我咬指甲）

在Python中得到很好的支持
主要主机的技术支持可以轻松设置
可以很好地扩展多达100000个文档
更新4个新文件的索引不应降低专用服务器的速度

功能（我是这里的新手）

以我可以自己操作的格式返回数据
可以返回突出显示的文本片段
标题或粗体的某些文件和文字具有更高的优先级

非常容易与之交互，因为它通过MySQL存储引擎工作，这是大多数程序员在某个时候接触过的界面。如果您已经在MySQL中拥有数据，则情况更是如此，因为这样您就可以轻松地将数据存储在一起。Django sphinx是一种相当成熟且易于使用的与sphinx交互的方法

我知道它的性能很好，因为我在一些高负载、高流量的情况下使用过它，而且做得很好。支持我发现自己需要的所有语义/功能

Lucene可以变得更容易接受，因为它是Lucene的REST接口。对于不习惯与搜索引擎交互的人来说，本机绑定可能有点神秘/陌生。

Solr，尽管用Java编写的是一个功能强大得惊人的搜索引擎

它拥有你所需要的一切，如高亮显示、权重、在索引中相对快速插入新项目的能力，以及一系列其他功能，如提供类似自动完成的功能

它有json/xml/其他响应方法，并且在python中是一种相当好的搜索引擎响应方法