ApacheSolr:数据导入处理程序异常-如何跳过零字节文件_Solr_Solrnet

ApacheSolr:数据导入处理程序异常-如何跳过零字节文件

solr

ApacheSolr:数据导入处理程序异常-如何跳过零字节文件,solr,solrnet,Solr,Solrnet,在查看Solr日志时，我发现数据导入错误文件。这是： Exception while processing: file document : null:org.apache.solr.handler.dataimport.DataImportHandlerException: Unable to read content Processing Document # 7866 at org.apache.solr.handler.dataimport.DataImportHand

在查看Solr日志时，我发现数据导入错误文件。这是：

Exception while processing: file document :
null:org.apache.solr.handler.dataimport.DataImportHandlerException: Unable
to read content Processing Document # 7866
        at
org.apache.solr.handler.dataimport.DataImportHandlerException.wrapAndThrow(DataImportHandlerException.java:69)
        at
org.apache.solr.handler.dataimport.TikaEntityProcessor.nextRow(TikaEntityProcessor.java:171)
        at
org.apache.solr.handler.dataimport.EntityProcessorWrapper.nextRow(EntityProcessorWrapper.java:267)
        at
org.apache.solr.handler.dataimport.DocBuilder.buildDocument(DocBuilder.java:476)
        at
org.apache.solr.handler.dataimport.DocBuilder.buildDocument(DocBuilder.java:517)
        at
org.apache.solr.handler.dataimport.DocBuilder.buildDocument(DocBuilder.java:415)
        at
org.apache.solr.handler.dataimport.DocBuilder.doFullDump(DocBuilder.java:330)
        at
org.apache.solr.handler.dataimport.DocBuilder.execute(DocBuilder.java:233)
        at
org.apache.solr.handler.dataimport.DataImporter.doFullImport(DataImporter.java:424)
        at
org.apache.solr.handler.dataimport.DataImporter.runCmd(DataImporter.java:483)
        at
org.apache.solr.handler.dataimport.DataImporter.lambda$runAsync$0(DataImporter.java:466)
        at java.lang.Thread.run(Unknown Source)
Caused by: org.apache.tika.exception.ZeroByteFileException: InputStream must
have > 0 bytes
        at org.apache.tika.parser.AutoDetectParser.parse(AutoDetectParser.java:122)
        at
org.apache.solr.handler.dataimport.TikaEntityProcessor.nextRow(TikaEntityProcessor.java:165)

如何忽略ZeroByteFileException？我可以在

dataimport.config

中定义任何设置吗

谢谢

在您的案例中可以配置一个属性

您可以添加

ignoreTikaException=true

ignoreTikaException

如果为true，则将跳过处理过程中发现的异常。但是，任何可用的元数据都将被索引

Example: ignoreTikaException=true

有关更多详细信息，请参阅solr文档。

默认情况下，如果发现生成错误的文档，TikaEntityProcessor将停止处理文档。

如果将

onError

定义为

“跳过”

，则TikaEntityProcessor将跳过处理失败的文档，并记录文档被跳过的消息。

我识别并删除了损坏的文件（或零kb文件）。问题解决后，Solr开始处理剩余文件

问候,，

拉维·库马尔（Ravi kumar）

还有一个属性onError=“continue”……但我不确定是否存在……我之前使用过它……感谢阿比基特的更新。Iam已具有“OnError”设置，但仍然无法处理出现上述错误的文档。尊敬的Ravi kumarthen，当我添加配置Solr的ignoreException属性部分时，您是否可以尝试ignoreException，而不是处理任何文档。如果可能，请提供完整的语法。

onError