Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/html/74.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
如何使用ApachePOI读取Java中的.DOC文件以将图像与文本分开?_Java_Ms Word_Apache Poi - Fatal编程技术网

如何使用ApachePOI读取Java中的.DOC文件以将图像与文本分开?

如何使用ApachePOI读取Java中的.DOC文件以将图像与文本分开?,java,ms-word,apache-poi,Java,Ms Word,Apache Poi,我需要从Java中读取一个包含文本和图像的Word.doc文件。我需要识别图像和文本,并将它们分为2个文件 我最近听说过“ApachePOI”。我如何使用ApachePOI读取Word.doc文件?Apache站点上的示例和示例代码非常好。我建议你从那里开始 要获取特定的文本位,首先创建org.apache.poi.hwpf.hwpf文档。使用getRange()获取范围,然后从中获取段落。然后可以获取文本和其他属性 以提取图像为例。截至本文撰写时的最新版本 当然,还有 请注意,根据POI网站

我需要从Java中读取一个包含文本和图像的Word.doc文件。我需要识别图像和文本,并将它们分为2个文件


我最近听说过“ApachePOI”。我如何使用ApachePOI读取Word.doc文件?

Apache站点上的示例和示例代码非常好。我建议你从那里开始

要获取特定的文本位,首先创建org.apache.poi.hwpf.hwpf文档。使用getRange()获取范围,然后从中获取段落。然后可以获取文本和其他属性

以提取图像为例。截至本文撰写时的最新版本

当然,还有

请注意,根据POI网站

HWPF仍处于早期开发阶段

它不是免费的(甚至不便宜!),但应该能够做到这一点。他们的评估下载将让你玩小文件

目标文件也必须是文档吗?您可以在Office中打开文档并将其保存为HTML。那么分离就变得微不足道了。RTF也是一个可行的选择,但我不能马上推荐一个好的RTF解析器

编辑为:我刚刚想起另一种可能的解决方案:,但您需要在同一台计算机上运行Office实例。它是JavaComBridge的缩写,它允许您调用Office中的COM库来操作文档。我相信这并不像听起来那么可怕