如何以编程方式将PDF转换为HTML?

如何以编程方式将PDF转换为HTML?,html,pdf,Html,Pdf,是否有任何类、COM对象、命令行实用程序或任何其他我可以制作API的东西可以将PDF转换为HTML文档?显然,转换可能有点粗糙,因为PDF可能包含比HTML所能描述的多得多的内容。我在SourceForge上发现了一个名为的实用程序,但老实说,它在转换方面做了一件非常糟糕的工作。我不在乎这个软件是免费的还是商业的,但是有什么东西我可以和我自己的软件结合起来,至少可以体面地进行这种转换吗?我知道谷歌已经开发出了自己的方法,因为你可以通过Gmail在电子邮件附件的PDF上点击“查看为HTML”,但我

是否有任何类、COM对象、命令行实用程序或任何其他我可以制作API的东西可以将PDF转换为HTML文档?显然,转换可能有点粗糙,因为PDF可能包含比HTML所能描述的多得多的内容。我在SourceForge上发现了一个名为的实用程序,但老实说,它在转换方面做了一件非常糟糕的工作。我不在乎这个软件是免费的还是商业的,但是有什么东西我可以和我自己的软件结合起来,至少可以体面地进行这种转换吗?我知道谷歌已经开发出了自己的方法,因为你可以通过Gmail在电子邮件附件的PDF上点击“查看为HTML”,但我希望有一些东西可以提供给公众


记住,从PDF到HTML。我不担心HTML转换为PDF。

我能想到的一个解决方案是编写一个小程序,使用名为iText的库读取PDF文本,然后生成HTML文件

对于基于java的PDF解决方案,我们仍然没有一个干净的方法。。所有的解决方案都是原始的,是一种变通方法。。。没有简单的解决方法 1.设计PDF的模板 2.然后在运行时使用java,将数据填充到此模板中…使用xml或其他数据源

这么简单的要求,还没有一个好的“开源免费”解决方案

日食鸟就要来了。。但不处理条形码元素。OOB.

您正在寻找的(C++),它可以将PDF转换为HTML而不会丢失文本或格式


要进一步转换为语义HTML,可以使用MyProject(Python)处理pdf2htmlEX输出。然而,它不再是无损的,并且在不偏离传统视觉布局的文档上效果最好。

请说明您的编程语言。最好是PHP;然而,如果有一些东西在ASP、Java、Python、Ruby等中可以工作,那么我就使用它。另外,我可以让PHP使用shell命令来执行命令行exe或使用COM对象。我没有那么挑剔,只要它在窗户上工作就可以了,我希望能很好地处理转换。i、 e.使用颜色、基本格式和图像。