有好的PDF到XHTML的严格转换器吗

有好的PDF到XHTML的严格转换器吗,pdf,xhtml,Pdf,Xhtml,它基本上都在标题中,我需要一堆大的PDF文件,并在XHTML1.0中严格使用它们,close足够好,然后我可以清理它。 谢谢这是一个复杂的请求,因为这取决于PDF本身(以及它是如何创建的)是否可以完成。 作为第一次尝试,我将尝试使用adobe自己的在线PDF到HTML转换器 然后尝试在事后用类似tidy的东西修复HTML 如果PDF是通过扫描图像创建的,那么可能根本就没有与之相关的文本-那么你可以做的最好的方法是将页面分割成JPG文档,或者在PDF本身上使用某种OCR软件 我警告您,即使PD

它基本上都在标题中,我需要一堆大的PDF文件,并在XHTML1.0中严格使用它们,close足够好,然后我可以清理它。
谢谢

这是一个复杂的请求,因为这取决于PDF本身(以及它是如何创建的)是否可以完成。 作为第一次尝试,我将尝试使用adobe自己的在线PDF到HTML转换器

然后尝试在事后用类似tidy的东西修复HTML

如果PDF是通过扫描图像创建的,那么可能根本就没有与之相关的文本-那么你可以做的最好的方法是将页面分割成JPG文档,或者在PDF本身上使用某种OCR软件

我警告您,即使PDF是手工创建的,因此其中包含文本信息,在转换过程中也可能会有很多错误,必须手工修复。我在一个产品上工作,该产品基本上为公司年度报告/等执行此过程,我们最终决定将页面切割成JPG/GIF图像并进行HTMLing处理——因为我们尝试的其他过程引入了太多错误,而且修复这些错误需要耗费大量人力