Python文件索引和搜索
我有一个大的抵消文件(hdf),我需要启用搜索。对于Java,我将使用Lucene,因为它是一个文件和文档索引引擎。我不知道python的等价物是什么 有谁能推荐我应该使用哪个库为大量文件集编制索引,以便快速搜索?还是你自己更喜欢的方式 我看过和,但这两个项目似乎都相当不活跃和不受支持,所以我不确定是否应该依赖它们 最后说明:Python文件索引和搜索,python,search,indexing,lucene,Python,Search,Indexing,Lucene,我有一个大的抵消文件(hdf),我需要启用搜索。对于Java,我将使用Lucene,因为它是一个文件和文档索引引擎。我不知道python的等价物是什么 有谁能推荐我应该使用哪个库为大量文件集编制索引,以便快速搜索?还是你自己更喜欢的方式 我看过和,但这两个项目似乎都相当不活跃和不受支持,所以我不确定是否应该依赖它们 最后说明: Woosh和pylucene看起来很有希望,但是Woosh仍然是alpha,所以我不确定我是否要依赖它,我在编译pylucene时遇到了问题,并且没有实际的版本。在我仔细
Woosh和pylucene看起来很有希望,但是Woosh仍然是alpha,所以我不确定我是否要依赖它,我在编译pylucene时遇到了问题,并且没有实际的版本。在我仔细查看了数据之后,大部分是数字和默认文本字符串,所以现在关闭索引引擎对我没有帮助。希望这些图书馆能稳定下来,以后游客会发现它们的用处 我以前没有做过索引,但是以下内容可能会有所帮助:-
您可能还想看看新的竞争者:。它与Lucene相似,但在纯Python中实现。< P>一个流行的基于C++的信息检索库,它经常被Python使用,是XAPIA/<
它速度非常快,可以愉快地管理大量数据,但它的可扩展性不如Lucene。弹性搜索可用于索引文档和按关键字搜索
Elasticsearch也可以与graph db和hadoop集成 下面的一些URL:
1)
2) 我可以使用pytables很好地读取hdf5文件,我只需要找到合适的工具来索引我提取的信息。我在这方面没有什么经验。由于您已经可以读取hd5文件,我认为pyIndexer可能适合您。我在这方面没有什么经验,我希望你的项目能顺利进行。斯芬克斯很棒,而且比pylucene更容易安装、配置等。