Java 使用PDF2DOM将PDF解析为HTML将返回null
我正在使用和尝试他们的基本文档。Pdf2Dom是基于ApachePDFBox的™ 图书馆Java 使用PDF2DOM将PDF解析为HTML将返回null,java,html,pdf,dom,Java,Html,Pdf,Dom,我正在使用和尝试他们的基本文档。Pdf2Dom是基于ApachePDFBox的™ 图书馆 File file = new File("file.pdf"); PDDocument pdf = PDDocument.load(file); PDFDomTree parser = new PDFDomTree(); Document dom = parser.createDOM(pdf); System.out.println(dom); 打印出的内容-[#文档:空] 使用3个不同的pdf尝试了相
File file = new File("file.pdf");
PDDocument pdf = PDDocument.load(file);
PDFDomTree parser = new PDFDomTree();
Document dom = parser.createDOM(pdf);
System.out.println(dom);
打印出的内容-[#文档:空]
使用3个不同的pdf尝试了相同的代码
当我在文本中删除相同的PDF时,它返回有效文本。因此,该文件不是空的。是我做错了什么还是图书馆本身
剥离器代码,如果有帮助的话
PDDocument pdf = PDDocument.load(pFile);
PDFTextStripper stripper = new PDFTextStripper();
String text = stripper.getText(pd);
System.out.println(text);
任何建议都将不胜感激,提前感谢。您的代码中没有任何错误。
Document
对象的toString()
[#document:null]由两部分组成。
第一部分是#文档,它是节点名。解析XML时,始终会收到一个#文档节点作为顶级节点。
第二部分为null,即节点的值。null用于指示节点没有值
如果您打印dom.getDocumentElement().getTextContent()
,那么您应该会看到一些值。谢谢,很抱歉没有错误