Document 使用嵌入式字体和内联图像将文档转换为HTML文件

Document 使用嵌入式字体和内联图像将文档转换为HTML文件,document,libreoffice,file-conversion,converters,Document,Libreoffice,File Conversion,Converters,我正在尝试将Doc/Docx文件转换为HTML。到目前为止,我发现使用LibreOffice可以在headless模式下实现它。我能够将文档转换为HTML,并且能够使用以下命令(在osx中)内联获取图像: 及 在ubuntu中,命令是: libreoffice --convert-to HTML:HTML --outdir ${outputPath} ${file.fullPath} 当文档从doc转换为HTML时,字体不会作为based64格式嵌入到HTML文件中。它创建一个没有嵌入字体的H

我正在尝试将Doc/Docx文件转换为HTML。到目前为止,我发现使用LibreOffice可以在headless模式下实现它。我能够将文档转换为HTML,并且能够使用以下命令(在osx中)内联获取图像:

及 在ubuntu中,命令是:

libreoffice --convert-to HTML:HTML --outdir ${outputPath} ${file.fullPath}

当文档从doc转换为HTML时,字体不会作为based64格式嵌入到HTML文件中。它创建一个没有嵌入字体的HTML文件。是否有任何解决方案可以将字体作为based64格式嵌入HTML文件中,从而使输出的HTML与doc/docx内容完全相同?

如果您不反对学习新内容,我建议您研究Python模块“Python docx”

有了它,您可以创建或更新Docx文件。它还可以打开Docx文件,您可以使用它编写自定义转换脚本。我一直在使用它将HTML转换为Docx,它非常有用

libreoffice --convert-to HTML:HTML --outdir ${outputPath} ${file.fullPath}