Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/xml/13.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
我如何在解析“a”时使Solr跟随链接;SolrXML";文件来索引结果?_Xml_Solr_Xml Parsing_Lucidworks - Fatal编程技术网

我如何在解析“a”时使Solr跟随链接;SolrXML";文件来索引结果?

我如何在解析“a”时使Solr跟随链接;SolrXML";文件来索引结果?,xml,solr,xml-parsing,lucidworks,Xml,Solr,Xml Parsing,Lucidworks,有一个web可访问的文件系统,包含成千上万的PDF文件,我需要Solr(使用Lucidworks)为其编制索引 我有一个XML文件,其中包含每个文件对应的数据。XML包含ID、一些简单的元数据以及文件系统中相应PDF的URL 目前,我能够以Solr读取XML并索引所有需要的元数据(包括PDF的URL)的方式格式化XML 我希望Solr在解析文件时,能够实际跟踪URL并索引引用的PDF数据以及XML提供的元数据。这可能吗?您(在纯Solr上)的最佳选择可能是具有嵌套实体的DataImportHan

有一个web可访问的文件系统,包含成千上万的PDF文件,我需要Solr(使用Lucidworks)为其编制索引

我有一个XML文件,其中包含每个文件对应的数据。XML包含ID、一些简单的元数据以及文件系统中相应PDF的URL

目前,我能够以Solr读取XML并索引所有需要的元数据(包括PDF的URL)的方式格式化XML

我希望Solr在解析文件时,能够实际跟踪URL并索引引用的PDF数据以及XML提供的元数据。这可能吗?

您(在纯Solr上)的最佳选择可能是具有嵌套实体的DataImportHandler

外部处理器将在其中,您可以将其与适当的数据源放在一起。使用变量构造/传递URL到内部实体


记住将外部(XPath)实体标记为rootEntity=false,以确保为内部实体创建Solr文档。

太好了,非常感谢。我会仔细阅读的。下周我要参加一个单兵训练,所以听起来这对我有帮助。有没有一种更简单的非“纯Solr”方法?另一个问题:如果“rootEntity=true”,解析后的PDF的全文是否会成为引用它的文档的一部分?因为我想这正是我想要的,你可以在Solr之外用你选择的语言解析你的xml文件,并使用合适的Solr Client/Langauge绑定来更新索引。与使用DataImportHandler相比,我更倾向于这样做。根实体应该是您希望Solr存储的实体。因此,如果您有一些XML元数据和一些PDF引用,那么XML的值为rootEntity=true(或者更具体地说,XML 1之上的任何实体的值为rootEntity=false)。如果在一个XML中有多个PDF,请小心,因为它们都将映射到相同的字段空间。其他选项包括编写自定义转换器,以获取PDF并以这种方式注入它们。或者编写SolrJ客户机来完成外部的所有工作。做这件事的方法总是不止一种。你们两个都有很好的建议。非常感谢。