Java 由于缺少OpenType布局表,解析PDF失败

Java 由于缺少OpenType布局表,解析PDF失败,java,pdfbox,truetype,Java,Pdfbox,Truetype,我需要用PDFBox(版本2.0.7)解析一个PDF文件,但我只收到很多类似的警告 2017年9月2日10:18:24 PM org.apache.pdfbox.pdmodel.font.PDCIDFontType2 警告:找到CFF/OTF,但需要嵌入TTF字体 AAAA C+UniversLTStd LightCn 2017年9月2日10:18:24 PM org.apache.pdfbox.pdmodel.font.PDCIDFontType2 信息:字体中使用的OpenType布局表 P

我需要用PDFBox(版本2.0.7)解析一个PDF文件,但我只收到很多类似的警告

2017年9月2日10:18:24 PM org.apache.pdfbox.pdmodel.font.PDCIDFontType2 警告:找到CFF/OTF,但需要嵌入TTF字体 AAAA C+UniversLTStd LightCn

2017年9月2日10:18:24 PM org.apache.pdfbox.pdmodel.font.PDCIDFontType2 信息:字体中使用的OpenType布局表 PDFBox中未实现AAAA C+UniversLTStd LightCn,将 忽略

我是否有可能通过在解析PDF之前加载某种字体来解决该问题,或者我是否没有机会解析该文档? 或者,是否有另一个PDF解析框架,我可以尝试更好的运气


谢谢您的帮助。

我想您使用了ExtractText cmdline实用程序。PDFBox的ExtractText实用程序的默认行为是将提取的文本写入文件(与输入文件同名,但后缀为“.txt”)。它不会在控制台上显示提取的文本。如果希望将提取的文本作为控制台输出,则必须指定参数“-console”。

我看不出解析“失败”。第一行是警告,您的PDF不符合规范,但PDFBox很好,无论如何都会解析它。第二行信息表示解析可以,但不支持布局表。如果您是泰国人、印度人或阿拉伯人,并且希望创建PDF,则这与您相关。不,它不会因为加载某个东西而改变。其他解析软件可能会也可能不会在日志中告诉您他们的观察结果。我没有说解析失败,但我想知道是否有可能在不要求客户调整文档以满足规范的情况下从该PDF中提取文本内容。您的标题是“解析PDF失败”但我还没有看到证据证明这一点,你也没有提到文本提取。您应该仍然能够获取您的文本-如果没有,它将有其他原因,请参阅此处:。如果您共享该文件,我可以提供更多详细信息。@tilmahausherr指出,除非您共享具有代表性的示例PDF并展示关键代码,否则我们无能为力。