Java 如何解决PDFBox中的无unicode映射错误?

Java 如何解决PDFBox中的无unicode映射错误?,java,python,unicode,pdfbox,Java,Python,Unicode,Pdfbox,我有一个现有的PDF文件,我想使用python脚本将其转换为excel文件。当前正在使用PDFBox,但存在多个类似于以下的错误: org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode No Unicode mapping for CID+24 (24) in font DroidSansFallback 我是否可以使用pdfbox或其他java/python脚本替换droidsansfallback字体或使用其他字体替换该字体? 请帮忙 要

我有一个现有的PDF文件,我想使用python脚本将其转换为excel文件。当前正在使用PDFBox,但存在多个类似于以下的错误:

org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode
No Unicode mapping for CID+24 (24) in font DroidSansFallback
我是否可以使用pdfbox或其他java/python脚本替换droidsansfallback字体或使用其他字体替换该字体?
请帮忙

要解决这些问题非常困难,请参见。最好是联系文档的创建者,以调出一个允许正确提取文本的文档。谢谢@TilmanHausherr:)可以使用OCR吗?@TilmanHausherr,很抱歉,我是新手。是因为文档的创建者遗漏了toUnicode cmap而导致此错误吗?当然可以对其进行OCR。试试Tesseract。ApacheTika支持这一点。是的,造物主有错。它甚至可能是有意的。@TilmanHausherr,谢谢你的帮助:)如果有效,将尝试OCR。顺便说一句,除了python/java之外,还有其他编程语言能够自动将pdf转换为excel吗?