使用libreoffice将HTML转换为DOCX时丢失上标标记

使用libreoffice将HTML转换为DOCX时丢失上标标记,html,converter,docx,libreoffice,Html,Converter,Docx,Libreoffice,我有以下HTML: 第n个 我正在使用命令: $libreoffice--转换为docx:“MS Word 2007 XML”test.html 将HTML转换为DOCX文件。但是我注意到,生成的DOCX文件实际上并不包含标记。它似乎正在使用位置和大小复制标记: 我需要知道的是如何将libreoffice放在标记中,而不是使用位置和大小 附加信息: 我在粗体和斜体()上也有类似的问题,但如果我将strong和em标记分别转换为b和I标记,则可以正确地进行转换,最好使用适合编辑HTML的工具,例

我有以下HTML:

第n个

我正在使用命令:

$libreoffice--转换为docx:“MS Word 2007 XML”test.html

将HTML转换为DOCX文件。但是我注意到,生成的DOCX文件实际上并不包含
标记。它似乎正在使用位置和大小复制
标记:

我需要知道的是如何将libreoffice放在
标记中,而不是使用位置和大小

附加信息:


我在粗体和斜体(
)上也有类似的问题,但如果我将
strong
em
标记分别转换为
b
I
标记,则可以正确地进行转换,最好使用适合编辑HTML的工具,例如记事本++或升华(作为示例)


如果出于特定原因需要将HTML作为LibreOffice文档,可以在记事本中打开HTML文件,并将其另存为扩展名为.txt的文本文件。这应该允许您在LibreOffice中打开文档。

您可以尝试使用所见即所得编辑器,如TinyMCE()。网上有很多,你也可以找到一些桌面应用程序。但是如果你想在docx中转换它,你可以试试这个,它是用php编写的,使用PHPWord,非常有效。

只要创建一个Python脚本,在需要的地方用
标记替换不需要的标记。

如果你用“xml”替换“docx”,这个命令就可以正常工作,如下所示:

libreoffice --convert-to xml:"MS Word 2003 XML" test.html

我在libreoffice转换为docx时也遇到过类似的问题,我花了太多时间试图找出哪些标签转换正确,哪些没有。我已经在使用中取得了更一致的成功:如果你在时间紧迫的情况下,我建议尝试这个替代方案。具体来说,我知道它正确地处理了标记。@BrianGilreath我使用了你提到的工具,使用了与我的问题一起发布的HTML。
sup
仍然转换为位置和大小,而不是
vertAlign
这是否是doctype问题?如果在打开html元素之前声明html5 doctype,会得到不同的结果吗?需要通过libreoffice转换吗?@albert我尝试过不同的doctype,但在这里似乎没有任何帮助。@user3241019我不需要使用libreoffice进行转换,但是这是我在一般情况下找到的最好的工具。我希望给我们的用户提供编辑HTML的能力,尽管我们的大多数用户都不熟悉HTML。我们的大多数用户都非常精通Microsoft Word,因此将HTML转换为DOCX以便在Word中进行编辑是有意义的。我已经有了一个将DOCX文件转换回HTML的工具。我已经有一段时间没有接触HTML了,所以只是问…记事本太多了,不能让他们学习吗?这不是一个贬义的问题,只是好奇而已。学习正确的工具实际上是学习编程的开始。还有一些在线工具可以让你完全在浏览器中编写代码,比如:我们的用户没有任何技术背景。为了让他们使用记事本,他们首先需要学习如何构造HTML。我们的工具使他们能够使用熟悉的工具(Microsoft Word)编辑文档。我们目前有一个“What You Mean Editor”,它是一个JS工具,可以用类似单词的方式编辑HTML。不过,它很笨重,而且有点问题。我们已经使用了所见即所得编辑器(.我们正特别尝试使用它,因为与Microsoft Word相比,我们的客户使用WYSIWYG编辑器不太舒服。我简单地查看了
HTMLDOCx
,但是我们不使用PHP,也不想使用PHP。我想做的是找到一种方法告诉libreoffice这些标记应该是什么,以及转换与libreoffice一起工作,就像我的问题一样。您建议我如何找到混乱的标记并用
标记替换它们?考虑到它们几乎肯定会根据字体、边距等的不同而不同。不幸的是,我需要生成的文档是docx文件,因为我正在使用PyDocx进行转换当用户编辑完文档后,将文件转换回HTML。我相信MS Word可以直接编辑HTML文档(如果我错了,请纠正我)。不太好。我们对生成的HTML进行了大量后处理。不管怎样。如果我在问题中不清楚我想要一个DOCX文件,请让我知道,以便我可以澄清。