Java Docx4J中用于将Docx转换为HTML的自定义解决方案

Java Docx4J中用于将Docx转换为HTML的自定义解决方案,java,docx4j,Java,Docx4j,我需要将多个DOCX文件转换为HTML格式,如果可能,转换为RTF Docx4j似乎是一个很好的java库 使用HtmlExporterNG2.html方法并不一定会给出我想要的结果。因此,我考虑修改从docx文件中提取的样式表,然后将其用于此转换,因为所有这些docx文件都有不同的格式,因此无法使用标准样式表。 我认为运行时修补样式表会奏效,这对吗?我应该注意哪些重要的事情? 我使用它作为java版本6的独立java应用程序。 我的查询可能有点模糊,但我正在寻找正确的方向。@Jason我想忽略

我需要将多个
DOCX
文件转换为
HTML
格式,如果可能,转换为
RTF

Docx4j
似乎是一个很好的java库 使用HtmlExporterNG2.html方法并不一定会给出我想要的结果。因此,我考虑修改从docx文件中提取的样式表,然后将其用于此转换,因为所有这些docx文件都有不同的格式,因此无法使用标准样式表。
我认为运行时修补样式表会奏效,这对吗?我应该注意哪些重要的事情?
我使用它作为java版本6的独立java应用程序。

我的查询可能有点模糊,但我正在寻找正确的方向。

@Jason我想忽略输入docx中的某些格式。因为转换后的html中添加了一些额外的空格或垃圾字符等

作为解决方案,我创建了一个新的xslt。对于大多数人来说,它与示例中的非常相似,但很少有小的调整。新的xslt现在将输入的docx文件转换为IE8、Mozilla或Chrome的正确格式(如我所需)html。

您的“期望结果”是什么?是否要忽略输入docx中的格式,或在某些方面重写它?