MS Word XML内容控件-自定义XML输出

MS Word XML内容控件-自定义XML输出,xml,ms-word,data-conversion,Xml,Ms Word,Data Conversion,我正试图设计一种方法,获取大量Word文档/页面,并以最简单的方式将其中的文本/内容转换为自定义XML输出。 这些文件是用户手册 我最初使用的是自定义XML路径,通过该路径可以使用自定义标记手动标记Word文档的内容,然后使用自定义VSTO插件根据模式将标记输出到XML文件。然而,在研究了该选项之后,由于Word不再支持自定义标记(就这样),它似乎是不可能的 另一个看似可行的选择是使用自定义XML部件。我仍然有点不确定它是否适合我正在尝试做的事情。据我所知,我可以向文档中添加自定义部件,如: “

我正试图设计一种方法,获取大量Word文档/页面,并以最简单的方式将其中的文本/内容转换为自定义XML输出。 这些文件是用户手册

我最初使用的是自定义XML路径,通过该路径可以使用自定义标记手动标记Word文档的内容,然后使用自定义VSTO插件根据模式将标记输出到XML文件。然而,在研究了该选项之后,由于Word不再支持自定义标记(就这样),它似乎是不可能的

另一个看似可行的选择是使用自定义XML部件。我仍然有点不确定它是否适合我正在尝试做的事情。据我所知,我可以向文档中添加自定义部件,如:

“部件”(即水泵)

“程序”(即拆卸或安装)

“零件号”

“备件”(即密封件、开关)

“程序步骤”

“图形”

但问题是,我不知道这个特定组件将有多少,比如说,‘程序步骤’。可能是1或20。如果有20个,那么输出中需要20个XML元素。类似地,一个文档中可能有一个完整的“备件”列表,而另一个文档中可能没有,这与图形相同,因此XML映射需要知道何时添加更多元素,或者在不必要的地方不添加元素,以便输出XML具有正确的元素数

有人知道我要做什么的好办法吗


谢谢。

我没有很好地理解你的思考过程,这里。。。如果您手动执行此操作,那么逻辑是什么?你会打开文件,然后。。。?我的直觉是,在OPC平面文件中获取WordOPenXML并进行分析或运行转换可能是有意义的。但很大程度上取决于如何识别事物。如果仍然可以进行标记,您会怎么做?可能有一个Word文档,其中包含50个或更多用于各种设备的程序。我需要的输出是大量符合行业标准模式的较小XML文件。理想情况下,我会标记新文件的开始和结束位置,并将文本标记为它将映射到新模式中的元素。因此,是的,虽然手动将数据标记到所有XML元素中是一项手动工作,但它比复制和转换到许多XML文件要快。。。您在编写“使用自定义XMl部件看起来似乎合理”时是否输入错误?你真的是指内容控制吗?是的,那是有可能的。您可以使用标题和/或标记属性对标记的内容进行分类。可以删除内容控件。然后就是提取内容的问题,这可以在WordOpenXML上完成。使用document.content.WordOpenXML以OPC平面文件格式获取文档内容,然后使用标准XML工具或XSLT“解析”文档内容,这可能是最有效的方法。