如何在C#(.NET)中加载MS Word文档的文本?

如何在C#(.NET)中加载MS Word文档的文本?,c#,.net,ms-word,docx,doc,C#,.net,Ms Word,Docx,Doc,如何在不执行此操作的情况下将MS Word文档(.doc和.docx)加载到内存(变量) wordApp.Documents.Open 我不想打开MS Word,我只想在里面看到文本 你给了我DOCX的答案,但是DOCX呢?我想要免费、高性能的解决方案,而不是打开12000个Word实例来处理所有这些问题:(Aspose是一种商业产品,900美元对我来说太多了。如果你在处理docx,你可以不用与Word进行任何互操作 .docx文件实际上一个ZIP文件包含一个XML文件,您可以读取该XML文件

如何在不执行此操作的情况下将MS Word文档(.doc和.docx)加载到内存(变量)

wordApp.Documents.Open

我不想打开MS Word,我只想在里面看到文本


你给了我DOCX的答案,但是DOCX呢?我想要免费、高性能的解决方案,而不是打开12000个Word实例来处理所有这些问题:(Aspose是一种商业产品,900美元对我来说太多了。

如果你在处理docx,你可以不用与Word进行任何互操作 .docx文件实际上一个ZIP文件包含一个XML文件,您可以读取该XML文件 请参考以下链接


对于docx格式的Word文档,我在CodeProject上找到了这篇有趣的文章

在这篇文章中,作者讨论了剥离这些词本身


对于除了使用Office API和(在后台)生成Word实例之外的doc(非docx)Word文档,您可以尝试使用市场上众多不同的Doc2Docx转换器中的一个,然后对两者应用上述过程。

我并不想成为对手,但为什么

我使用Word2X或AbiWord从Linux服务器上的Word文档中提取数据,根据文档的数量和种类,提取过程中总会出现错误。更糟糕的是,项目符号、分页符、文档部分和其他“特殊”功能越多


我知道现在有一些选项可以自动化OpenOffice来处理文档,但我的建议是,如果可以的话,只需使用Word来处理Word文档。

我最近对这个主题做了一些研究。结果表明,要能够在不打开Word本身的情况下以编程方式操作Word文件,需要一些非常昂贵的工具

在上有一篇文章,你可能会发现它很有用。作者构建了一个C#COM包装器来处理对Word的调用。看起来它实际上打开了Word应用程序

看起来也很有希望。它包含了很多用于文本提取的PInvoked调用


如果你能找到一种隐藏窗口的方法,它可能是可以接受的。

Aspose有一个组件来读取、修改和编写Word文档。 以下是产品链接:

Words支持.NET和Java 要读取、修改和写入的应用程序 Word®文档而不使用 Microsoft Word®.Aspose.Words支持 一系列广泛的功能,包括 文档创建、内容和格式 格式化操作,强大的邮件 融合能力,综合保障 文档、OOXML、RTF、WordprocessingML、, HTML、OpenDocument和PDF格式。 语言确实是最重要的 价格合理、速度最快、功能丰富 市场上的Word组件


您可以使用Office兼容包中的wordconv.exe将文档转换为docx

只需按如下方式调用命令: “C:\Program Files\Microsoft Office\Office12\wordconv.exe”-oice-nme InputFile OutputFile

我不确定是否需要安装word才能运行,但它确实可以工作。我在本地使用它作为windows shell命令,随时将旧office文件转换为2007格式。

使用,您可以轻松获取word的全文(仅适用于docx)

下面是代码(Node.JS)

DocxTemplater=require('DocxTemplater');
doc=new DocxTemplater().loadFromFile(“input.docx”);
结果=doc.getFullText();


这只是三行代码,不依赖于任何word实例(所有普通JS)

是否有免费的doc-to-docx解决方案?免费库,->Aspose:US$899如果我想每天处理12000个word文档..猜猜我为什么不想打开12000个word实例。。