Ms word 如何自动将PDF转换为HTML?

Ms word 如何自动将PDF转换为HTML?,ms-word,extraction,Ms Word,Extraction,我为一家出版商工作,正试图从我们的完全布局的PDF中提取内容。我尝试了pdftohtml、pdftotext、pdfminer和其他基于Python的方法来获取内容,以及从原始Acrobat文件保存到Word、HTML、XML等 我不仅需要文本,我还需要文本格式。这是因为,例如,我需要文档中的所有蓝色文本 当我从Acrobat保存到HTML、Word等时,生成的文件包含页面的屏幕截图,而不是布局文本。当我使用不同的Python模块提取文本时,我得到了文本,但丢失了文本格式 我找到的唯一解决方案是

我为一家出版商工作,正试图从我们的完全布局的PDF中提取内容。我尝试了pdftohtml、pdftotext、pdfminer和其他基于Python的方法来获取内容,以及从原始Acrobat文件保存到Word、HTML、XML等

我不仅需要文本,我还需要文本格式。这是因为,例如,我需要文档中的所有蓝色文本

当我从Acrobat保存到HTML、Word等时,生成的文件包含页面的屏幕截图,而不是布局文本。当我使用不同的Python模块提取文本时,我得到了文本,但丢失了文本格式

我找到的唯一解决方案是手动将PDF复制并粘贴到word文档中,然后另存为HTML。我希望能自动完成这项工作


为什么从Acrobat复制到Word实现了我用其他方法无法实现的功能?有人以前遇到过这个问题吗?

< P>也许你可以考虑另一种方法。软件()可以通过MVS直接将pdf文件转换为html。如果您能够使用MVS,我认为我上面提到的软件对您将pdf文件中的文本转换为html非常有用,可以完美地保持格式。当然,这只是一个推荐,你可以试一试