Java 如何获取pdf文件的基于html的表示形式

Java 如何获取pdf文件的基于html的表示形式,java,pdf,structure,extract,converter,Java,Pdf,Structure,Extract,Converter,我搜索了很多,没有找到适合我需要的工具 我获取pdf文件,并希望在网页上显示其内容 pdf内容的表示应该是html,因为我还想突出显示特定的单词,并希望能够包含pdf的内容,而无需使用某种flash或javascript插件来处理呈现 最好是一个java库。商业或免费使用并不重要。开放更好,免费更好 可用的pdf工具,如jPedal、PDFBox、iText和其他工具,工作得不够好 JPedal做得很好,除了linux系统上的字体问题。该库尝试以与原始页面完全相同的方式呈现html页面。但这对我

我搜索了很多,没有找到适合我需要的工具

我获取pdf文件,并希望在网页上显示其内容

pdf内容的表示应该是html,因为我还想突出显示特定的单词,并希望能够包含pdf的内容,而无需使用某种flash或javascript插件来处理呈现

最好是一个java库。商业或免费使用并不重要。开放更好,免费更好

可用的pdf工具,如jPedal、PDFBox、iText和其他工具,工作得不够好

JPedal做得很好,除了linux系统上的字体问题。该库尝试以与原始页面完全相同的方式呈现html页面。但这对我来说并不重要。我需要将段落和标题按原稿大小分组。没关系的是一段有多高

PdfBox要么只重新返回包含while内容的单个字符串,要么为页面上的每一行创建html标记列表

我也知道阅读pdf的内容是一项艰巨的任务,但真的没有什么可以使用的吗

请告诉我已经有了解决方案

更新:

我还需要获取文档的html表示,以便在服务器上进一步操作它

每个页面看起来都像原始页面并不重要。段落的高度可能不同,页眉和页脚也不重要。但那会很好


我将在几天后测试PDFNet,感谢您的提示

这是一个原因,成千上万的网站将链接放在他们的PDF文件上,而不是尝试将PDF文件转换为HTML。我帮助编写了基于JPedal的PDF转换器,它有5种不同的显示模式,包括真实文本,测试图像上的形状和不可见文本以供选择。如果您对任何文件有任何问题,欢迎向我们发送错误报告。如果你只是想要一个免费的工具来动态显示PDF文件,看看PDF.js吧