Java 如何解决PDFBox中的无unicode映射错误？_Java_Python_Unicode_Pdfbox

Java 如何解决PDFBox中的无unicode映射错误？

java python unicode

Java 如何解决PDFBox中的无unicode映射错误？,java,python,unicode,pdfbox,Java,Python,Unicode,Pdfbox,我有一个现有的PDF文件，我想使用python脚本将其转换为excel文件。当前正在使用PDFBox，但存在多个类似于以下的错误： org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode No Unicode mapping for CID+24 (24) in font DroidSansFallback 我是否可以使用pdfbox或其他java/python脚本替换droidsansfallback字体或使用其他字体替换该字体？请帮忙要

我有一个现有的PDF文件，我想使用python脚本将其转换为excel文件。当前正在使用PDFBox，但存在多个类似于以下的错误：

org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode
No Unicode mapping for CID+24 (24) in font DroidSansFallback

我是否可以使用pdfbox或其他java/python脚本替换droidsansfallback字体或使用其他字体替换该字体？

请帮忙

要解决这些问题非常困难，请参见。最好是联系文档的创建者，以调出一个允许正确提取文本的文档。谢谢@TilmanHausherr:）可以使用OCR吗？@TilmanHausherr，很抱歉，我是新手。是因为文档的创建者遗漏了toUnicode cmap而导致此错误吗？当然可以对其进行OCR。试试Tesseract。ApacheTika支持这一点。是的，造物主有错。它甚至可能是有意的。@TilmanHausherr，谢谢你的帮助：）如果有效，将尝试OCR。顺便说一句，除了python/java之外，还有其他编程语言能够自动将pdf转换为excel吗？