最适合在python中处理10000s(格式化)文档的文本索引器
我想添加一个功能来搜索存储在目录中的文档。后端是在Python中开发的,用于额外操作搜索结果。文档存储在专用的web服务器中 已建立的技术(Lucene、Xapian、Whoosh)具有成熟的python绑定。我的同事已经为他们的客户建立了Apache、Lucene和PHP。我会选择Whoosh,因为它是用Python编写的,但我对它的缓慢性能和缺乏“功能X”的评论感到害怕 我的具体要求是: 支撑(让我咬指甲)最适合在python中处理10000s(格式化)文档的文本索引器,python,full-text-search,Python,Full Text Search,我想添加一个功能来搜索存储在目录中的文档。后端是在Python中开发的,用于额外操作搜索结果。文档存储在专用的web服务器中 已建立的技术(Lucene、Xapian、Whoosh)具有成熟的python绑定。我的同事已经为他们的客户建立了Apache、Lucene和PHP。我会选择Whoosh,因为它是用Python编写的,但我对它的缓慢性能和缺乏“功能X”的评论感到害怕 我的具体要求是: 支撑(让我咬指甲) 在Python中得到很好的支持 主要主机的技术支持可以轻松设置 可以很好地扩展多达
- 在Python中得到很好的支持
- 主要主机的技术支持可以轻松设置
- 可以很好地扩展多达100000个文档
- 更新4个新文件的索引不应降低专用服务器的速度
- 以我可以自己操作的格式返回数据
- 可以返回突出显示的文本片段
- 标题或粗体的某些文件和文字具有更高的优先级
Lucene可以变得更容易接受,因为它是Lucene的REST接口。对于不习惯与搜索引擎交互的人来说,本机绑定可能有点神秘/陌生。Solr,尽管用Java编写的是一个功能强大得惊人的搜索引擎 它拥有你所需要的一切,如高亮显示、权重、在索引中相对快速插入新项目的能力,以及一系列其他功能,如提供类似自动完成的功能 它有json/xml/其他响应方法,并且在python中是一种相当好的搜索引擎响应方法