Java 使用PDF2DOM将PDF解析为HTML将返回null_Java_Html_Pdf_Dom

Java 使用PDF2DOM将PDF解析为HTML将返回null

java html pdf dom

Java 使用PDF2DOM将PDF解析为HTML将返回null,java,html,pdf,dom,Java,Html,Pdf,Dom,我正在使用和尝试他们的基本文档。Pdf2Dom是基于ApachePDFBox的™ 图书馆 File file = new File("file.pdf"); PDDocument pdf = PDDocument.load(file); PDFDomTree parser = new PDFDomTree(); Document dom = parser.createDOM(pdf); System.out.println(dom); 打印出的内容-[#文档：空] 使用3个不同的pdf尝试了相

我正在使用和尝试他们的基本文档。Pdf2Dom是基于ApachePDFBox的™ 图书馆

File file = new File("file.pdf");
PDDocument pdf = PDDocument.load(file);
PDFDomTree parser = new PDFDomTree();
Document dom = parser.createDOM(pdf);
System.out.println(dom);

打印出的内容-[#文档：空]

使用3个不同的pdf尝试了相同的代码

当我在文本中删除相同的PDF时，它返回有效文本。因此，该文件不是空的。是我做错了什么还是图书馆本身

剥离器代码，如果有帮助的话

PDDocument pdf = PDDocument.load(pFile);
PDFTextStripper stripper = new PDFTextStripper();
String text = stripper.getText(pd);
System.out.println(text);

任何建议都将不胜感激，提前感谢。

您的代码中没有任何错误。

Document

对象的

toString（）
[#document:null]由两部分组成。
第一部分是#文档，它是节点名。解析XML时，始终会收到一个#文档节点作为顶级节点。
第二部分为null，即节点的值。null用于指示节点没有值
如果您打印dom.getDocumentElement（）.getTextContent（）
，那么您应该会看到一些值。
谢谢，很抱歉没有错误