.net 从Word中提取方程和图像

.net 从Word中提取方程和图像,.net,vb.net,ms-word,extract,equation,.net,Vb.net,Ms Word,Extract,Equation,是否有一种编程方法可以从MS Word文档中提取方程式(可能还有图像)?我已经在谷歌上搜索了所有地方,但还没有找到任何我可以埋头苦干的东西。如果可能的话,我希望能够用VB.NET或C#实现这一点,但我可以学习足够多的任何语言来破解DLL。谢谢 编辑:现在我正在考虑从Word 2003中提取公式,但是如果需要将其转换为2007/Open XML,那就好了。尝试查看转换器。它需要.Net framework,尽管源代码尚未打开,但作者确实对此提出了疑问。您的文档采用什么Word格式?如果它们位于开放

是否有一种编程方法可以从MS Word文档中提取方程式(可能还有图像)?我已经在谷歌上搜索了所有地方,但还没有找到任何我可以埋头苦干的东西。如果可能的话,我希望能够用VB.NET或C#实现这一点,但我可以学习足够多的任何语言来破解DLL。谢谢


编辑:现在我正在考虑从Word 2003中提取公式,但是如果需要将其转换为2007/Open XML,那就好了。

尝试查看转换器。它需要.Net framework,尽管源代码尚未打开,但作者确实对此提出了疑问。

您的文档采用什么Word格式?如果它们位于开放XML(文件扩展名.docx)中,则可以使用Microsoft提供的来提取图像和嵌入内容

打开的XML文件只不过是使用特殊结构的zip存档。您将在SDK中找到如何访问部分zip存档的示例。实际上,您可以使用任何支持zip的库从文档包中提取内容

如果文档仍然使用较旧的二进制格式,那么事情就有点复杂了。我认为最简单的方法是将文档转换为开放XML格式。有几种方法可以做到这一点:

  • 从SourceForge获得免费和开放的,它为您提供用于文件转换的C#DLL
  • 安装Microsoft的并使用以下命令行进行转换:

    “C:\Program Files\Microsoft Office\Office12\wordconv.exe”-oice-nme输入\文件输出\文件


其中输入文件和输出文件必须是完整路径名。

我不知道这是否有帮助,但Word 2000/2003中的对象模型有一个
InlineShapes
集合,作为
文档
对象的一部分,该对象表示嵌入的图像和可能类似的对象,如方程

使用某些VBA代码将第一项复制到剪贴板上,这可能有助于您提取它们:

ThisDocument.InlineShapes.Items(1).Select
Selection.Copy
它也可以在.NET中访问