Solr-使用FileListenityProcessor实现PDF文件的增量导入

Solr-使用FileListenityProcessor实现PDF文件的增量导入,pdf,solr,solrnet,dataimporthandler,Pdf,Solr,Solrnet,Dataimporthandler,Solr版本::6.6.1 我正在使用solr为PDF文件编制索引,它可以很好地工作 预期。现在我需要在上执行delta导入选项 PDF文件。仅应在数据导入处理程序操作期间处理最近添加到文件夹中的文件 我无法找到使用实现增量导入的示例 文件列表处理器 请建议 data-config.xml文件如下所示 <dataConfig> <dataSource type="BinFileDataSource"/> <document> <entit

Solr版本::6.6.1

我正在使用solr为PDF文件编制索引,它可以很好地工作 预期。现在我需要在上执行delta导入选项 PDF文件。仅应在数据导入处理程序操作期间处理最近添加到文件夹中的文件

我无法找到使用实现增量导入的示例 文件列表处理器

请建议

data-config.xml文件如下所示

<dataConfig>
  <dataSource type="BinFileDataSource"/>
  <document>
    <entity name="K1FileEntity" processor="FileListEntityProcessor"
dataSource="null"
            recursive = "true"
            baseDir="\\CLD02\RemoteDepot"
            fileName=".*pdf" rootEntity="false">

            <field column="file" name="id"/>
            <!--<field column="fileAbsolutePath" name="path" />
            <field column="fileSize" name="size" />-->
            <field column="fileLastModified" name="lastmodified" />

              <entity name="pdf" processor="TikaEntityProcessor"
onError="skip"
                      url="${K1FileEntity.fileAbsolutePath}" format="text">

                <field column="title" name="title" meta="true"/>
                <field column="dc:format" name="format" meta="true"/>
                <field column="text" name="text"/>

              </entity>
    </entity>
  </document>
</dataConfig> 

如上所述:

三角洲进口

用于增量导入和更改检测。只有 SqlEntityProcessor支持增量导入

因此,您需要:

  • 使用一些java代码(使用Solrj)进行索引,并在下面滚动您自己的增量导入
  • 或者为FileListEntityProcessor实现所有增量(并希望将其推到Solr中),您可以使用SqlEntityProcessor代码作为指南

甚至我也在文档中读到了这些信息。奇怪的是,无法对PDF或其他文件类型执行增量导入。我还遇到了实体级别的另一个属性,名称为newerThan=“'NOW-3DAYS'”。我们可以用这种方式来实现增量导入吗?请检查,但要注意这不是完整的增量查询,那么删除的文件呢?对于删除的文件,它应该从Solr core中删除其索引。。我猜delta query不会发生这种情况。。