使用python将.doc文件转换为HTML

使用python将.doc文件转换为HTML,python,python-2.7,python-3.x,Python,Python 2.7,Python 3.x,我有一堆.doc文件(不是.docx),我想把它们转换成HTML文件。 我尝试使用pythondocx2html模块,但它只支持.docx文件,不支持doc。 那么我如何实现它呢?只需将您的文档文件转换为docx即可。你可能想看看这个 我也遇到了同样的问题,通过使用子流程调用将LibreOffice的软件调用到我的Python模块中,解决了这个问题。使用该软件,您可以直接将doc转换为html 但我必须通知您,使用此解决方案,outputfile.html可能会丢失一些格式样式。 在我的例子中,

我有一堆.doc文件(不是.docx),我想把它们转换成HTML文件。 我尝试使用pythondocx2html模块,但它只支持.docx文件,不支持doc。
那么我如何实现它呢?

只需将您的文档文件转换为docx即可。你可能想看看这个

我也遇到了同样的问题,通过使用
子流程调用
将LibreOffice的
软件调用到我的Python模块中,解决了这个问题。使用该软件,您可以直接将
doc
转换为
html

但我必须通知您,使用此解决方案,
outputfile.html
可能会丢失一些格式样式。 在我的例子中,它保留了字体、字体大小和字体(粗体、斜体等),这是我的基本要求

import subprocess

# Assuming `filename` has already been assigned for input file name
subprocess.call(['soffice', '--headless', '--convert-to', 'html', filename])
这将在同一目录中生成具有相同名称的html文档

然后,如果有必要,您可以继续使用一些CSS重新设置
.html
文件的样式。
我希望这会有所帮助

只需使用COMs将所有.doc文件转换为.docx文件应该相当简单(如果您使用的是Windows)@wnnmaw您能详细说明如何实现吗?介绍如何将.doc转换为.pdf,您应该能够通过将
wdFormatPDF
替换为wdFormatDocument97中的适当常量来适应.doc转换为.doc,并且您首先要查找的是0值将其转换为docx。然后使用此库: