ApacheSolr:数据导入处理程序异常-如何跳过零字节文件
在查看Solr日志时,我发现数据导入错误 文件。这是:ApacheSolr:数据导入处理程序异常-如何跳过零字节文件,solr,solrnet,Solr,Solrnet,在查看Solr日志时,我发现数据导入错误 文件。这是: Exception while processing: file document : null:org.apache.solr.handler.dataimport.DataImportHandlerException: Unable to read content Processing Document # 7866 at org.apache.solr.handler.dataimport.DataImportHand
Exception while processing: file document :
null:org.apache.solr.handler.dataimport.DataImportHandlerException: Unable
to read content Processing Document # 7866
at
org.apache.solr.handler.dataimport.DataImportHandlerException.wrapAndThrow(DataImportHandlerException.java:69)
at
org.apache.solr.handler.dataimport.TikaEntityProcessor.nextRow(TikaEntityProcessor.java:171)
at
org.apache.solr.handler.dataimport.EntityProcessorWrapper.nextRow(EntityProcessorWrapper.java:267)
at
org.apache.solr.handler.dataimport.DocBuilder.buildDocument(DocBuilder.java:476)
at
org.apache.solr.handler.dataimport.DocBuilder.buildDocument(DocBuilder.java:517)
at
org.apache.solr.handler.dataimport.DocBuilder.buildDocument(DocBuilder.java:415)
at
org.apache.solr.handler.dataimport.DocBuilder.doFullDump(DocBuilder.java:330)
at
org.apache.solr.handler.dataimport.DocBuilder.execute(DocBuilder.java:233)
at
org.apache.solr.handler.dataimport.DataImporter.doFullImport(DataImporter.java:424)
at
org.apache.solr.handler.dataimport.DataImporter.runCmd(DataImporter.java:483)
at
org.apache.solr.handler.dataimport.DataImporter.lambda$runAsync$0(DataImporter.java:466)
at java.lang.Thread.run(Unknown Source)
Caused by: org.apache.tika.exception.ZeroByteFileException: InputStream must
have > 0 bytes
at org.apache.tika.parser.AutoDetectParser.parse(AutoDetectParser.java:122)
at
org.apache.solr.handler.dataimport.TikaEntityProcessor.nextRow(TikaEntityProcessor.java:165)
如何忽略ZeroByteFileException?我可以在dataimport.config
中定义任何设置吗
谢谢 在您的案例中可以配置一个属性 您可以添加
ignoreTikaException=true
ignoreTikaException
如果为true,则将跳过处理过程中发现的异常。但是,任何可用的元数据都将被索引
Example: ignoreTikaException=true
有关更多详细信息,请参阅solr文档。
默认情况下,如果发现生成错误的文档,TikaEntityProcessor将停止处理文档。
如果将
onError
定义为“跳过”
,则TikaEntityProcessor将跳过处理失败的文档,并记录文档被跳过的消息。我识别并删除了损坏的文件(或零kb文件)。问题解决后,Solr开始处理剩余文件
问候,,
拉维·库马尔(Ravi kumar)还有一个属性onError=“continue”……但我不确定是否存在……我之前使用过它……感谢阿比基特的更新。Iam已具有“OnError”设置,但仍然无法处理出现上述错误的文档。尊敬的Ravi kumarthen,当我添加配置Solr的ignoreException属性部分时,您是否可以尝试ignoreException,而不是处理任何文档。如果可能,请提供完整的语法。
onError