Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/search/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python文件索引和搜索_Python_Search_Indexing_Lucene - Fatal编程技术网

Python文件索引和搜索

Python文件索引和搜索,python,search,indexing,lucene,Python,Search,Indexing,Lucene,我有一个大的抵消文件(hdf),我需要启用搜索。对于Java,我将使用Lucene,因为它是一个文件和文档索引引擎。我不知道python的等价物是什么 有谁能推荐我应该使用哪个库为大量文件集编制索引,以便快速搜索?还是你自己更喜欢的方式 我看过和,但这两个项目似乎都相当不活跃和不受支持,所以我不确定是否应该依赖它们 最后说明: Woosh和pylucene看起来很有希望,但是Woosh仍然是alpha,所以我不确定我是否要依赖它,我在编译pylucene时遇到了问题,并且没有实际的版本。在我仔细

我有一个大的抵消文件(hdf),我需要启用搜索。对于Java,我将使用Lucene,因为它是一个文件和文档索引引擎。我不知道python的等价物是什么

有谁能推荐我应该使用哪个库为大量文件集编制索引,以便快速搜索?还是你自己更喜欢的方式

我看过和,但这两个项目似乎都相当不活跃和不受支持,所以我不确定是否应该依赖它们

最后说明:
Woosh和pylucene看起来很有希望,但是Woosh仍然是alpha,所以我不确定我是否要依赖它,我在编译pylucene时遇到了问题,并且没有实际的版本。在我仔细查看了数据之后,大部分是数字和默认文本字符串,所以现在关闭索引引擎对我没有帮助。希望这些图书馆能稳定下来,以后游客会发现它们的用处

我以前没有做过索引,但是以下内容可能会有所帮助:-

  • pyIndex---Python的文件索引库
  • --这是一个使用Python和Lucene搜索Outlook电子邮件的脚本
  • -Aaron water的牛虻数据库(我认为您可以使用此数据库进行索引。我自己没有使用过。)
  • 就使用HDF文件而言,我听说过一个名为h5py的模块

    我希望这有帮助。

    我建议。它非常活跃,有更多的功能,看起来比Lucene快。

    Lupy和开发者推荐PyLucene。至于PyLucene,它的邮件列表活动可能很低,但它肯定是受支持的。事实上,它最近才成为一个新的话题


    您可能还想看看新的竞争者:。它与Lucene相似,但在纯Python中实现。

    < P>一个流行的基于C++的信息检索库,它经常被Python使用,是XAPIA/<
    它速度非常快,可以愉快地管理大量数据,但它的可扩展性不如Lucene。

    弹性搜索可用于索引文档和按关键字搜索
    Elasticsearch也可以与graph db和hadoop集成 下面的一些URL:
    1)

    2)

    我可以使用pytables很好地读取hdf5文件,我只需要找到合适的工具来索引我提取的信息。我在这方面没有什么经验。由于您已经可以读取hd5文件,我认为pyIndexer可能适合您。我在这方面没有什么经验,我希望你的项目能顺利进行。斯芬克斯很棒,而且比pylucene更容易安装、配置等。