使用python将.doc文件转换为HTML
我有一堆.doc文件(不是.docx),我想把它们转换成HTML文件。 我尝试使用pythondocx2html模块,但它只支持.docx文件,不支持doc。使用python将.doc文件转换为HTML,python,python-2.7,python-3.x,Python,Python 2.7,Python 3.x,我有一堆.doc文件(不是.docx),我想把它们转换成HTML文件。 我尝试使用pythondocx2html模块,但它只支持.docx文件,不支持doc。 那么我如何实现它呢?只需将您的文档文件转换为docx即可。你可能想看看这个 我也遇到了同样的问题,通过使用子流程调用将LibreOffice的软件调用到我的Python模块中,解决了这个问题。使用该软件,您可以直接将doc转换为html 但我必须通知您,使用此解决方案,outputfile.html可能会丢失一些格式样式。 在我的例子中,
那么我如何实现它呢?只需将您的文档文件转换为docx即可。你可能想看看这个 我也遇到了同样的问题,通过使用
子流程调用将LibreOffice的软件调用到我的Python模块中,解决了这个问题。使用该软件,您可以直接将doc
转换为html
但我必须通知您,使用此解决方案,outputfile.html
可能会丢失一些格式样式。
在我的例子中,它保留了字体、字体大小和字体(粗体、斜体等),这是我的基本要求
import subprocess
# Assuming `filename` has already been assigned for input file name
subprocess.call(['soffice', '--headless', '--convert-to', 'html', filename])
这将在同一目录中生成具有相同名称的html文档
然后,如果有必要,您可以继续使用一些CSS重新设置.html
文件的样式。
我希望这会有所帮助只需使用COMs将所有.doc文件转换为.docx文件应该相当简单(如果您使用的是Windows)@wnnmaw您能详细说明如何实现吗?介绍如何将.doc转换为.pdf,您应该能够通过将wdFormatPDF
替换为wdFormatDocument97中的适当常量来适应.doc转换为.doc,并且您首先要查找的是0值将其转换为docx。然后使用此库: