Pdf 修复Solr中未识别的字符_Pdf_Solr_Tokenize_Apache Tika_Dataimporthandler

Pdf 修复Solr中未识别的字符

pdf solr

Pdf 修复Solr中未识别的字符,pdf,solr,tokenize,apache-tika,dataimporthandler,Pdf,Solr,Tokenize,Apache Tika,Dataimporthandler,我已尝试使用导入PDF。但部分结果包含如下内容：合二为一 \nZLWK�RXU�QDWXUH��WDNH�\RXU�SLFN��HQGOHVV�PRXQWDLQV��LQȴQLWH�EHDFKHV��VSDUNOLQJ�FLWLHV��\也没有历史奇观因此，我尝试使用ASCIIFoldingFilter和MappingCharFilterFactory删除它，但没有成功有人知道吗？原文是什么样子的？这可能是一个字符集问题。请使用Solr Admin下的“分析”页面来验证您的分析链是否按照

我已尝试使用导入PDF。但部分结果包含如下内容：

合二为一 \nZLWK�RXU�QDWXUH��WDNH�\RXU�SLFN��HQGOHVV�PRXQWDLQV��LQȴQLWH�EHDFKHV��VSDUNOLQJ�FLWLHV��\也没有历史奇观

因此，我尝试使用

ASCIIFoldingFilter

和

MappingCharFilterFactory

删除它，但没有成功

有人知道吗？

原文是什么样子的？这可能是一个字符集问题。请使用Solr Admin下的“分析”页面来验证您的分析链是否按照您认为的方式工作。这些字符中的大多数也是有效的ASCII字符，因此它们不会被删除或折叠。如果您尝试使用PDFBox app（提取文件中的文本），您可以看到问题是否出在文件处理过程中（很可能）。如果您有问题，请打开PDFBox的问题，或在用户列表中询问这是PDFBox中的错误还是损坏的PDF。