如何使用ApachePOI读取Java中的.DOC文件以将图像与文本分开?
我需要从Java中读取一个包含文本和图像的Word.doc文件。我需要识别图像和文本,并将它们分为2个文件如何使用ApachePOI读取Java中的.DOC文件以将图像与文本分开?,java,ms-word,apache-poi,Java,Ms Word,Apache Poi,我需要从Java中读取一个包含文本和图像的Word.doc文件。我需要识别图像和文本,并将它们分为2个文件 我最近听说过“ApachePOI”。我如何使用ApachePOI读取Word.doc文件?Apache站点上的示例和示例代码非常好。我建议你从那里开始 要获取特定的文本位,首先创建org.apache.poi.hwpf.hwpf文档。使用getRange()获取范围,然后从中获取段落。然后可以获取文本和其他属性 以提取图像为例。截至本文撰写时的最新版本 当然,还有 请注意,根据POI网站
我最近听说过“ApachePOI”。我如何使用ApachePOI读取Word.doc文件?Apache站点上的示例和示例代码非常好。我建议你从那里开始 要获取特定的文本位,首先创建org.apache.poi.hwpf.hwpf文档。使用getRange()获取范围,然后从中获取段落。然后可以获取文本和其他属性 以提取图像为例。截至本文撰写时的最新版本 当然,还有 请注意,根据POI网站 HWPF仍处于早期开发阶段 它不是免费的(甚至不便宜!),但应该能够做到这一点。他们的评估下载将让你玩小文件 目标文件也必须是文档吗?您可以在Office中打开文档并将其保存为HTML。那么分离就变得微不足道了。RTF也是一个可行的选择,但我不能马上推荐一个好的RTF解析器 编辑为:我刚刚想起另一种可能的解决方案:,但您需要在同一台计算机上运行Office实例。它是JavaComBridge的缩写,它允许您调用Office中的COM库来操作文档。我相信这并不像听起来那么可怕