有好的PDF到XHTML的严格转换器吗_Pdf_Xhtml

有好的PDF到XHTML的严格转换器吗

pdf

有好的PDF到XHTML的严格转换器吗,pdf,xhtml,Pdf,Xhtml,它基本上都在标题中，我需要一堆大的PDF文件，并在XHTML1.0中严格使用它们，close足够好，然后我可以清理它。谢谢这是一个复杂的请求，因为这取决于PDF本身（以及它是如何创建的）是否可以完成。作为第一次尝试，我将尝试使用adobe自己的在线PDF到HTML转换器然后尝试在事后用类似tidy的东西修复HTML 如果PDF是通过扫描图像创建的，那么可能根本就没有与之相关的文本-那么你可以做的最好的方法是将页面分割成JPG文档，或者在PDF本身上使用某种OCR软件我警告您，即使PD

它基本上都在标题中，我需要一堆大的PDF文件，并在XHTML1.0中严格使用它们，close足够好，然后我可以清理它。

谢谢

这是一个复杂的请求，因为这取决于PDF本身（以及它是如何创建的）是否可以完成。作为第一次尝试，我将尝试使用adobe自己的在线PDF到HTML转换器

然后尝试在事后用类似tidy的东西修复HTML

如果PDF是通过扫描图像创建的，那么可能根本就没有与之相关的文本-那么你可以做的最好的方法是将页面分割成JPG文档，或者在PDF本身上使用某种OCR软件

我警告您，即使PDF是手工创建的，因此其中包含文本信息，在转换过程中也可能会有很多错误，必须手工修复。我在一个产品上工作，该产品基本上为公司年度报告/等执行此过程，我们最终决定将页面切割成JPG/GIF图像并进行HTMLing处理——因为我们尝试的其他过程引入了太多错误，而且修复这些错误需要耗费大量人力