以编程方式将具有表结构的word文档转换为XML的最佳方法是什么

以编程方式将具有表结构的word文档转换为XML的最佳方法是什么,xml,ms-word,data-conversion,Xml,Ms Word,Data Conversion,所以,我有一个word文档,它有一大堆表格,其中一些相当长。在某些情况下,它跨越许多页面。我需要通过编程将它转换为XML 我最初被告知,我们可以将粘贴复制到Excel中,并将其保存为CSV,然后我可以从那里转换,这将非常简单。但是,由于某些字段的格式设置,在复制到Excel后,需要对电子表格进行大量额外的操作,以使其外观正确,并正确显示CSV 我应该注意到,这是一个用VB.Net 1.1编写的旧应用程序的附加组件(cue皱眉):(.然而,我正在讨论是否在C#3.5中编写一个单独的命令行工具可以让

所以,我有一个word文档,它有一大堆表格,其中一些相当长。在某些情况下,它跨越许多页面。我需要通过编程将它转换为XML

我最初被告知,我们可以将粘贴复制到Excel中,并将其保存为CSV,然后我可以从那里转换,这将非常简单。但是,由于某些字段的格式设置,在复制到Excel后,需要对电子表格进行大量额外的操作,以使其外观正确,并正确显示CSV

我应该注意到,这是一个用VB.Net 1.1编写的旧应用程序的附加组件(cue皱眉):(.然而,我正在讨论是否在C#3.5中编写一个单独的命令行工具可以让它变得更简单。似乎C#有一些单词互操作的东西,我怀疑它是否在1.1框架中,但我还没有对此进行太多的研究

所以,我只是在寻找实现这一点的最佳/最快的方法。如何实现并不重要,只要它是通过编程实现的。有些步骤可以手动完成,如果它们不是太难的话。比如,如果先将它转换为其他格式,将节省大量的代码,这并不太困难你会没事的

以前有人做过类似的事情吗?有什么想法吗

更新 好的,这里有一个我需要做的例子

我有一个单词doc看起来像这样

PROTOCOL:  BIRDS           

Field Name      Data Type      Required      Length      Total Digits      Fraction Digits      ValidValues/Comparison      Description
OBSERVATION_ID  Text           Yes           16          n/a               n/a                                              Unique observation identification.  Primary key. 
因此,这里有一个表,表中有名称和供应商(本例中为协议和鸟类)。例如,它只有一个字段。有效值/比较可以有多个用逗号分隔的内容,每个内容都用XML中的值标记括起来

现在我需要做的就是把它转换成XML

<?xml version="1.0" encoding="utf-8"?>
<Formats xmlns:xsd="http://www.w3.org/2001/XMLSchema" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="Formats.xsd">
  <VendorFormats Vendor="PROTOCOL" LastModified="2005-9-13">
    <Format Name="BIRDS" Version="3" VersionDate="2005-9-10">
      <BaseTable>BIRDS</BaseTable>
      <StageTable>STAGE_BIRDS</StageTable>
      <Fields>
        <Text Name="OBSERVATION_ID" Required="Y">
          <NullValue />
          <Description>Unique observation identification.  Primary key.</Description>
          <Length>16</Length>
        </Text>
      </Fields>
    </Format>
   </VendorFormats>
 </Formats>

鸟
舞台鸟
唯一的观察标识。主键。
16

始终会有一个基表和一个阶段表,其中基表的名称与冒号后面的名称相同(协议:BIRDS,所以应该是BIRDS)stage表总是stage,然后是冒号后面的内容。您还会注意到XML中的版本、上次修改的版本和版本日期。这些事情可能会在以后担心,也可能是手动添加的。

您应该意识到,没有MS Word文档这样的东西。有很多格式,一些早期格式是not不愧为该名称,但最好将其描述为黑客压缩文本的内存转储。 您并不真正需要XML,这是以后要考虑的问题。您必须控制文档中的数据。除非这是最新的、有些文档化的格式之一,否则您只有一个选择:破解它。编写一个程序来操作文档,直到您得到所需的内容。
唯一了解MS Word格式的人是MS Word本身。因此,如果你能说服她将内容转储为或多或少定义的格式(如RTF),你就有了一个更好的起点。

对XML的要求是什么?如果你只需要XML,你只需将文档另存为OpenXML,但我想你需要特定的格式?它看起来应该是什么样的ke?我假设与Word类似的OpenXML是Word新的XML格式的东西?否则我不确定您所说的OpenXML是什么意思。我知道从Word生成的XML中得到的东西就人眼所知是一团乱麻。另外,在我的帖子中添加了我想要的东西。