Pdf 修复Solr中未识别的字符

Pdf 修复Solr中未识别的字符,pdf,solr,tokenize,apache-tika,dataimporthandler,Pdf,Solr,Tokenize,Apache Tika,Dataimporthandler,我已尝试使用导入PDF。但部分结果包含如下内容: 合二为一 \nZLWK�RXU�QDWXUH��WDNH�\RXU�SLFN��HQGOHVV�PRXQWDLQV��LQȴQLWH�EHDFKHV��VSDUNOLQJ�FLWLHV��\也没有 历史奇观 因此,我尝试使用ASCIIFoldingFilter和MappingCharFilterFactory删除它,但没有成功 有人知道吗?原文是什么样子的?这可能是一个字符集问题。请使用Solr Admin下的“分析”页面来验证您的分析链是否按照

我已尝试使用导入PDF。但部分结果包含如下内容:

合二为一 \nZLWK�RXU�QDWXUH��WDNH�\RXU�SLFN��HQGOHVV�PRXQWDLQV��LQȴQLWH�EHDFKHV��VSDUNOLQJ�FLWLHV��\也没有 历史奇观

因此,我尝试使用
ASCIIFoldingFilter
MappingCharFilterFactory
删除它,但没有成功


有人知道吗?

原文是什么样子的?这可能是一个字符集问题。请使用Solr Admin下的“分析”页面来验证您的分析链是否按照您认为的方式工作。这些字符中的大多数也是有效的ASCII字符,因此它们不会被删除或折叠。如果您尝试使用PDFBox app(提取文件中的文本),您可以看到问题是否出在文件处理过程中(很可能)。如果您有问题,请打开PDFBox的问题,或在用户列表中询问这是PDFBox中的错误还是损坏的PDF。