Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/366.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
最适合在python中处理10000s(格式化)文档的文本索引器_Python_Full Text Search - Fatal编程技术网

最适合在python中处理10000s(格式化)文档的文本索引器

最适合在python中处理10000s(格式化)文档的文本索引器,python,full-text-search,Python,Full Text Search,我想添加一个功能来搜索存储在目录中的文档。后端是在Python中开发的,用于额外操作搜索结果。文档存储在专用的web服务器中 已建立的技术(Lucene、Xapian、Whoosh)具有成熟的python绑定。我的同事已经为他们的客户建立了Apache、Lucene和PHP。我会选择Whoosh,因为它是用Python编写的,但我对它的缓慢性能和缺乏“功能X”的评论感到害怕 我的具体要求是: 支撑(让我咬指甲) 在Python中得到很好的支持 主要主机的技术支持可以轻松设置 可以很好地扩展多达

我想添加一个功能来搜索存储在目录中的文档。后端是在Python中开发的,用于额外操作搜索结果。文档存储在专用的web服务器中

已建立的技术(Lucene、Xapian、Whoosh)具有成熟的python绑定。我的同事已经为他们的客户建立了Apache、Lucene和PHP。我会选择Whoosh,因为它是用Python编写的,但我对它的缓慢性能和缺乏“功能X”的评论感到害怕

我的具体要求是:

支撑(让我咬指甲)

  • 在Python中得到很好的支持
  • 主要主机的技术支持可以轻松设置
  • 可以很好地扩展多达100000个文档
  • 更新4个新文件的索引不应降低专用服务器的速度
功能(我是这里的新手)

  • 以我可以自己操作的格式返回数据
  • 可以返回突出显示的文本片段
  • 标题或粗体的某些文件和文字具有更高的优先级
非常容易与之交互,因为它通过MySQL存储引擎工作,这是大多数程序员在某个时候接触过的界面。如果您已经在MySQL中拥有数据,则情况更是如此,因为这样您就可以轻松地将数据存储在一起。Django sphinx是一种相当成熟且易于使用的与sphinx交互的方法

我知道它的性能很好,因为我在一些高负载、高流量的情况下使用过它,而且做得很好。支持我发现自己需要的所有语义/功能


Lucene可以变得更容易接受,因为它是Lucene的REST接口。对于不习惯与搜索引擎交互的人来说,本机绑定可能有点神秘/陌生。

Solr,尽管用Java编写的是一个功能强大得惊人的搜索引擎

它拥有你所需要的一切,如高亮显示、权重、在索引中相对快速插入新项目的能力,以及一系列其他功能,如提供类似自动完成的功能

它有json/xml/其他响应方法,并且在python中是一种相当好的搜索引擎响应方法