将大量word文档自动转换为xml,对其进行修改,然后将其转换为latex、pdf和html

将大量word文档自动转换为xml,对其进行修改,然后将其转换为latex、pdf和html,html,xml,pdf,latex,ms-word,Html,Xml,Pdf,Latex,Ms Word,word中有一组大约400个文档,它们是质量管理体系word的一部分,这让我非常难过,因为a)它处理大型文档中的图像效果不佳b)布局有时会损坏c)为不同的客户配置文档很麻烦 我可以将单个文档保存为xml/html或文本,然后手动将其转换为latex,但这对于400个文档是不可能的。我知道我可以使用诸如PrimoPDF之类的工具将word文档直接打印到pdf,但这不够灵活,因为我需要修改内容 有没有办法保持文档的结构(如纯文本、标题、表格、图像)并将其转换为XML?之后,我想根据客户的选择将XML

word中有一组大约400个文档,它们是质量管理体系word的一部分,这让我非常难过,因为a)它处理大型文档中的图像效果不佳b)布局有时会损坏c)为不同的客户配置文档很麻烦

我可以将单个文档保存为xml/html或文本,然后手动将其转换为latex,但这对于400个文档是不可能的。我知道我可以使用诸如PrimoPDF之类的工具将word文档直接打印到pdf,但这不够灵活,因为我需要修改内容

有没有办法保持文档的结构(如纯文本、标题、表格、图像)并将其转换为XML?之后,我想根据客户的选择将XML转换为html、latex和pdf,并修改内容?xslt是将xml转换为其他格式的一种方法吗


感谢您的建议。

有关将MS Word批量转换为其他内容的信息,请访问OpenOffice.org。 OpenOffice有一个(命令行)批量转换模式。您还可以查看哪些文件仅使用该机制进行转换

这样,您就可以将MicrosoftWord大规模转换为OpenOffice.org支持的其他格式。也许是文本,也许是RTF,也许是OpenOffice XML

然后,您就有了一个更容易转换为Latex的格式


在Stack Overflow搜索Word和OpenOffice,您会发现类似的结果

您可以将文档转换为Word 2007。Office2007文档是XML文档:只需将文件扩展名更改为
.zip
和upzip即可。此外,Microsoft发布了一个用于处理Office 2007文档的API,其级别高于使用XML标记的级别。

TUG(TeX用户组)提供了有关单词LaTeX转换的建议:


这可能值得一看,看看是否有任何建议和方法符合您的要求。

不确定它的效果如何,但确实有。

谢谢。到目前为止,我们使用的是较旧的版本,但我要求使用Office2007,以便更详细地说明MS Office 2007->XML->XML、XHTML、LaTex和PDF的路径。