Java 如何将PDF输入流转换为Html字符串?

Java 如何将PDF输入流转换为Html字符串?,java,Java,我有一个PDF输入流,类型为ByteArrayInputStream 我需要将此输入转换为html字符串 有没有可能 谢谢…一个可能的起点是使用。请了解如何将依赖项集成到项目中,并阅读更多关于可能需要的依赖项的信息 Pdf2Dom提供了一个PDF解析器,用于将文档转换为HTML DOM表示。然后可以将此DOM树序列化为HTML文件或用于进一步处理 下面是一个小代码示例,我尝试过,效果很好: private void convert() { try { PDDocu

我有一个PDF输入流,类型为ByteArrayInputStream

我需要将此输入转换为html字符串

有没有可能


谢谢…

一个可能的起点是使用。请了解如何将依赖项集成到项目中,并阅读更多关于可能需要的依赖项的信息

Pdf2Dom提供了一个PDF解析器,用于将文档转换为HTML DOM表示。然后可以将此DOM树序列化为HTML文件或用于进一步处理

下面是一个小代码示例,我尝试过,效果很好:

    private void convert() {
    try {
        PDDocument pdf = PDDocument.load(new File(SOURCE_PDF));
        PDFDomTree parser = new PDFDomTree(PDFDomTreeConfig.createDefaultConfig());
        Writer output = new PrintWriter(TARGET_HTML, "UTF-8");
        parser.writeText(pdf, output);
        output.close();
        pdf.close();
    } catch (IOException | ParserConfigurationException e) {
        // Handle errors
    } 
}

我试过PDFDomTree,但它说:“PDFDomTree无法解析为类型”,不建议使用导入类。@Hasan Kaan TURAN PDFDomTree是pdf2dom-x-x.jar(import org.fit.pdfdom.PDFDomTree)的一部分。您是否正确地添加了jar作为依赖项(通过您的构建工具或本地jar)?我解决了它;net.sf.cssbox pdf2dom 1.8