Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/xml/14.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
大型XML文件的apachelucene索引_Xml_Lucene - Fatal编程技术网

大型XML文件的apachelucene索引

大型XML文件的apachelucene索引,xml,lucene,Xml,Lucene,我是lucene新手,我想用lucene为包含纯文本、属性和这么多xml标记的大型xml文件(15GB)编制索引。如何使用lucene解析和索引这个xml文件,如果我们使用lucene,我们需要任何数据库 如何使用lucene解析和索引巨大的xml文件?任何样本或链接都将有助于我了解流程。另一个,如果我使用lucene,我将需要任何数据库,正如我所看到的,并使用数据库进行索引。您的索引将像使用数据库一样构建,只需迭代所有要索引的数据并将其写入索引。只需使用类以只向前的方式解析xml即可。与数据库

我是lucene新手,我想用lucene为包含纯文本、属性和这么多xml标记的大型xml文件(15GB)编制索引。如何使用lucene解析和索引这个xml文件,如果我们使用lucene,我们需要任何数据库


如何使用lucene解析和索引巨大的xml文件?任何样本或链接都将有助于我了解流程。另一个,如果我使用lucene,我将需要任何数据库,正如我所看到的,并使用数据库进行索引。

您的索引将像使用数据库一样构建,只需迭代所有要索引的数据并将其写入索引。只需使用类以只向前的方式解析xml即可。与数据库一样,您需要索引某种主键,以便知道搜索结果代表什么

数据库有助于从主键查找索引数据。如果每次请求时都需要迭代一个15gib的xml文件,那么读取主键的数据将很麻烦


数据库不是必需的,但它非常有用。我会将此构建为一个导入工具,读取xml,将其转储到数据库中,然后使用以前构建的“普通”数据库索引代码。

您可能想看看Michael Sokolov的Luxen产品,它结合了Lucene和Saxon:

我自己没有使用过它,也不能声称完全理解它的功能