C# 使用dotnet或Java解析Word文档的内容
C# 使用dotnet或Java解析Word文档的内容,c#,java,parsing,ms-word,C#,Java,Parsing,Ms Word,我希望有人能帮我解析一个词。基本上,我需要解析Word文档的内容,并使用结果值形成一个映射。实际上,Word的内容如下: Key1: Value1 Key2: Value2 KeyKey1: Key11: Value11 Key12: Value12 KeyKey2: Key21: Value21 Key22: Value22 文档将有表或键值对(也有键值)。我们需要识别或区分key和keykey,需要解析文档并将其插入map。目前我正在研究手动解析,这看起来像是对值
我希望有人能帮我解析一个词。基本上,我需要解析Word文档的内容,并使用结果值形成一个映射。实际上,Word的内容如下:
Key1: Value1
Key2: Value2
KeyKey1: Key11: Value11
Key12: Value12
KeyKey2:
Key21: Value21
Key22: Value22
文档将有表或键值对(也有键值)。我们需要识别或区分key和keykey,需要解析文档并将其插入map。目前我正在研究手动解析,这看起来像是对值进行了太多的硬编码。例如,如何区分key1和key1以及key1和Key2请推荐一些方法来解析word文档或库的内容,以便用C#或Java进行解析
任何帮助都将不胜感激。提前感谢。您需要查看文档的内容吗?为此,您可以使用Java。我们在应用程序中使用它没有任何问题。我们都读写Word和Excel文档。文档非常完整,API非常简单。您可以查看Java中解析word文档的方法。目前最好的库是ApacheTika。它支持多种文档类型,只需编写几行代码。你可以读这篇文章 如果忽略与solr相关的代码,那么提取pdf内容只需5-6行代码。或者使用JAXB标准(也是Apache许可的)。