Java 解析.docx文件以提取文本和图像

Java 解析.docx文件以提取文本和图像,java,Java,我需要解析一个.docx文件并提取信息,其中包含多项选择题格式的问题。它还包含图像,如数学方程,以及文本。我试过poi和tika,但只有我能提取文本。有人能告诉我是否有开源的java工具用于此吗?docx格式本质上是一种zip格式。要获取图像,请将filename.docx更改为filename.zip并解压缩zip 可能是@MohamedAneesA的副本,这与单个图像无关,我们需要将文本和图像都提取到单个文件中。您可以通过检查来提取图像。正如我从你的问题中推断的那样,你已经能够提取文本了。我

我需要解析一个.docx文件并提取信息,其中包含多项选择题格式的问题。它还包含图像,如数学方程,以及文本。我试过poi和tika,但只有我能提取文本。有人能告诉我是否有开源的java工具用于此吗?

docx格式本质上是一种zip格式。要获取图像,请将filename.docx更改为filename.zip并解压缩zip

可能是@MohamedAneesA的副本,这与单个图像无关,我们需要将文本和图像都提取到单个文件中。您可以通过检查来提取图像。正如我从你的问题中推断的那样,你已经能够提取文本了。我需要按顺序提取这些数据。例如,我有一个数学问题,其中包含方程,如.wmf图像,我想完全提取这个问题,包括文本和图像。哦,我不知道。您可以在word/_rels/document.xml.rels中找到word/media中文件的关系Id,以了解它们在word/document.xml中的引用位置。