Python 使用大型文本文件构建solr索引

Python 使用大型文本文件构建solr索引,python,solr,Python,Solr,我有一个以下格式的大文本文件: 00001,234234|234|235|7345 00005,788|298|234|735 您可以将,之前的值视为键,我想做的是快速而肮脏地查询这些键并找到每个键的结果集。读了一点之后,我发现solr提供了一个很好的框架来实现这一点 起点是什么 我是否可以使用python读取文件并构建此索引(搜索) 引擎)使用solr 是否有不同的机制来实现这一点 使用pysolr(一个python库)绝对可以做到这一点。如果数据是键值形式,则可以在python中读取,如

我有一个以下格式的大文本文件:

00001,234234|234|235|7345
00005,788|298|234|735
您可以将
之前的值视为键,我想做的是快速而肮脏地查询这些键并找到每个键的结果集。读了一点之后,我发现solr提供了一个很好的框架来实现这一点

  • 起点是什么
  • 我是否可以使用python读取文件并构建此索引(搜索) 引擎)使用solr
  • 是否有不同的机制来实现这一点

使用pysolr(一个python库)绝对可以做到这一点。如果数据是键值形式,则可以在python中读取,如下所示:

为了更好地控制搜索,您需要修改schema.xml文件,使其具有文本文件中的键


一旦您在SOLR中接收到数据,您就可以按照上面的链接执行搜索。

您可以使用
UpdateCSV
处理程序直接在SOLR中索引数据:您只需要在curl调用中的
fieldnames
参数中指定目标字段名(如果方便的话,也可以将它们添加为文件的第一行)。无需自定义代码

请记住检查以
|
分隔的值的目标字段是否使用该字符拆分为标记

有关详细信息,请参阅