Ms word 如何自动将PDF转换为HTML？_Ms Word_Extraction

Ms word 如何自动将PDF转换为HTML？

ms-word

Ms word 如何自动将PDF转换为HTML？,ms-word,extraction,Ms Word,Extraction,我为一家出版商工作，正试图从我们的完全布局的PDF中提取内容。我尝试了pdftohtml、pdftotext、pdfminer和其他基于Python的方法来获取内容，以及从原始Acrobat文件保存到Word、HTML、XML等我不仅需要文本，我还需要文本格式。这是因为，例如，我需要文档中的所有蓝色文本当我从Acrobat保存到HTML、Word等时，生成的文件包含页面的屏幕截图，而不是布局文本。当我使用不同的Python模块提取文本时，我得到了文本，但丢失了文本格式我找到的唯一解决方案是

我为一家出版商工作，正试图从我们的完全布局的PDF中提取内容。我尝试了pdftohtml、pdftotext、pdfminer和其他基于Python的方法来获取内容，以及从原始Acrobat文件保存到Word、HTML、XML等

我不仅需要文本，我还需要文本格式。这是因为，例如，我需要文档中的所有蓝色文本

当我从Acrobat保存到HTML、Word等时，生成的文件包含页面的屏幕截图，而不是布局文本。当我使用不同的Python模块提取文本时，我得到了文本，但丢失了文本格式

我找到的唯一解决方案是手动将PDF复制并粘贴到word文档中，然后另存为HTML。我希望能自动完成这项工作

为什么从Acrobat复制到Word实现了我用其他方法无法实现的功能？有人以前遇到过这个问题吗？

< P>也许你可以考虑另一种方法。软件（）可以通过MVS直接将pdf文件转换为html。如果您能够使用MVS，我认为我上面提到的软件对您将pdf文件中的文本转换为html非常有用，可以完美地保持格式。当然，这只是一个推荐，你可以试一试