Ms word 将大量带有mathtype方程和矢量图形的.doc文件导出为带有嵌入式latex和svg的html

Ms word 将大量带有mathtype方程和矢量图形的.doc文件导出为带有嵌入式latex和svg的html,ms-word,wmf,mathtype,Ms Word,Wmf,Mathtype,我需要将数千个.doc文件转换为HTML。这些文档包含MathType公式、Word图形(矢量图形),这些图形多次包含更多的公式对象本身。 通过Microsoft.Office.Interop.Word,我成功地将.docs保存为已过滤HTML和“未过滤”HTML(最后一种模式的优点是生成多个.wmz文件)。遗憾的是,MathType SDK无法转换过程中生成的wmz文件中的每个等式(SDK附带的wmf示例转换为LaTeX很好..)总结: 我需要知道哪些wmf文件是MathType方程,哪些是

我需要将数千个.doc文件转换为HTML。这些文档包含MathType公式、Word图形(矢量图形),这些图形多次包含更多的公式对象本身。
通过Microsoft.Office.Interop.Word,我成功地将.docs保存为已过滤HTML和“未过滤”HTML(最后一种模式的优点是生成多个.wmz文件)。遗憾的是,MathType SDK无法转换过程中生成的wmz文件中的每个等式(SDK附带的wmf示例转换为LaTeX很好..)总结:

  • 我需要知道哪些wmf文件是MathType方程,哪些是word绘图
  • 我需要能够转换的wmf文件是MathType方程到乳胶
  • 我需要一些相当好的wmf到svg转换器来转换图形,因为结果往往不符合我们的喜好
  • 我需要访问word绘图中包含的mathtype方程式
所有这些都必须自动化,因为有数千个文件。

任何对此有经验的人?

WMZ都是gzip压缩的WMF,因此如果WMF到LaTeX的转换有效,那么请尝试将WMZ文件解压缩到WMF,然后将其转换为LaTeX。

我不久前做过这件事,但不是用数学公式,而且有几种方法可以遍历word文档对象树。您是否尝试过手动读取Word绘图对象,然后输出其中的每个等式对象?如果你能找到一个失败的例子,那么它可能是一个微软可能已经有补丁的错误。@acutesoftware我几乎解决了“丢失”图形中的方程式(这意味着可以只使用wmf或emf格式为它们生成的向量信息)。问题仍然在于使用MathType SDK将等式转换为LaTeX,并将wmf/emf转换为SVG。此外,为了访问对象,我正在将文档另存为.docx并查看其中的.bin文件,不过如果值得的话,我可以很容易地对此进行更改。在.NET中使用MS提供的对象模型,而不是读取.bin文件,这样MS就可以为您解决问题。您正在处理一种专有格式,您现在所做的任何解决方案都可能在下一个版本中中断。@acutesoftware您所关心的问题是正确的,但这是一个一次性导入过程,因此这不是一个大问题。不管怎样,我都会选择更简单的。事实上,wmz是压缩wmf。wmz文件不是问题所在,问题在于如何将wmf转换为LaTeX。