我如何在解析“a”时使Solr跟随链接；SolrXML"；文件来索引结果？_Xml_Solr_Xml Parsing_Lucidworks

我如何在解析“a”时使Solr跟随链接；SolrXML"；文件来索引结果？

xml solr

我如何在解析“a”时使Solr跟随链接；SolrXML"；文件来索引结果？,xml,solr,xml-parsing,lucidworks,Xml,Solr,Xml Parsing,Lucidworks,有一个web可访问的文件系统，包含成千上万的PDF文件，我需要Solr（使用Lucidworks）为其编制索引我有一个XML文件，其中包含每个文件对应的数据。XML包含ID、一些简单的元数据以及文件系统中相应PDF的URL 目前，我能够以Solr读取XML并索引所有需要的元数据（包括PDF的URL）的方式格式化XML 我希望Solr在解析文件时，能够实际跟踪URL并索引引用的PDF数据以及XML提供的元数据。这可能吗？您（在纯Solr上）的最佳选择可能是具有嵌套实体的DataImportHan

有一个web可访问的文件系统，包含成千上万的PDF文件，我需要Solr（使用Lucidworks）为其编制索引

我有一个XML文件，其中包含每个文件对应的数据。XML包含ID、一些简单的元数据以及文件系统中相应PDF的URL

目前，我能够以Solr读取XML并索引所有需要的元数据（包括PDF的URL）的方式格式化XML

我希望Solr在解析文件时，能够实际跟踪URL并索引引用的PDF数据以及XML提供的元数据。这可能吗？

您（在纯Solr上）的最佳选择可能是具有嵌套实体的DataImportHandler

外部处理器将在其中，您可以将其与适当的数据源放在一起。使用变量构造/传递URL到内部实体

记住将外部（XPath）实体标记为rootEntity=false，以确保为内部实体创建Solr文档。

太好了，非常感谢。我会仔细阅读的。下周我要参加一个单兵训练，所以听起来这对我有帮助。有没有一种更简单的非“纯Solr”方法？另一个问题：如果“rootEntity=true”，解析后的PDF的全文是否会成为引用它的文档的一部分？因为我想这正是我想要的，你可以在Solr之外用你选择的语言解析你的xml文件，并使用合适的Solr Client/Langauge绑定来更新索引。与使用DataImportHandler相比，我更倾向于这样做。根实体应该是您希望Solr存储的实体。因此，如果您有一些XML元数据和一些PDF引用，那么XML的值为rootEntity=true（或者更具体地说，XML 1之上的任何实体的值为rootEntity=false）。如果在一个XML中有多个PDF，请小心，因为它们都将映射到相同的字段空间。其他选项包括编写自定义转换器，以获取PDF并以这种方式注入它们。或者编写SolrJ客户机来完成外部的所有工作。做这件事的方法总是不止一种。你们两个都有很好的建议。非常感谢。