Java 使用PDF2DOM将PDF解析为HTML将返回null

Java 使用PDF2DOM将PDF解析为HTML将返回null,java,html,pdf,dom,Java,Html,Pdf,Dom,我正在使用和尝试他们的基本文档。Pdf2Dom是基于ApachePDFBox的™ 图书馆 File file = new File("file.pdf"); PDDocument pdf = PDDocument.load(file); PDFDomTree parser = new PDFDomTree(); Document dom = parser.createDOM(pdf); System.out.println(dom); 打印出的内容-[#文档:空] 使用3个不同的pdf尝试了相

我正在使用和尝试他们的基本文档。Pdf2Dom是基于ApachePDFBox的™ 图书馆

File file = new File("file.pdf");
PDDocument pdf = PDDocument.load(file);
PDFDomTree parser = new PDFDomTree();
Document dom = parser.createDOM(pdf);
System.out.println(dom);
打印出的内容-[#文档:空]

使用3个不同的pdf尝试了相同的代码

当我在文本中删除相同的PDF时,它返回有效文本。因此,该文件不是空的。是我做错了什么还是图书馆本身

剥离器代码,如果有帮助的话

PDDocument pdf = PDDocument.load(pFile);
PDFTextStripper stripper = new PDFTextStripper();
String text = stripper.getText(pd);
System.out.println(text);

任何建议都将不胜感激,提前感谢。

您的代码中没有任何错误。
Document
对象的
toString()

[#document:null]由两部分组成。 第一部分是#文档,它是节点名。解析XML时,始终会收到一个#文档节点作为顶级节点。 第二部分为null,即节点的值。null用于指示节点没有值


如果您打印
dom.getDocumentElement().getTextContent()
,那么您应该会看到一些值。

谢谢,很抱歉没有错误