Hyperlink 提取Apache-POI-HWPF超链接

Hyperlink 提取Apache-POI-HWPF超链接,hyperlink,apache-poi,hwpf,Hyperlink,Apache Poi,Hwpf,超链接“目标”标签 如何从HWPF文档中提取超链接?我可以从文档文件中获取段落,并在必要时提取正确的样式,如粗体、斜体等。但我如何从段落中识别和提取超链接?正如您所注意到的,.doc格式不会以最简单的方式存储超链接 超链接将是单个字符,上面有特殊标记。一旦你检测到了它,只需根据引号分割文本 在Apache Tika中有一个很好的例子,请查看的handleSpecialCharacterRuns方法以查看它的完成情况。在我的例子中,超链接不是单个CharacterRun。我原以为是这样,但事实并非

超链接“目标”标签


如何从HWPF文档中提取超链接?我可以从文档文件中获取段落,并在必要时提取正确的样式,如粗体、斜体等。但我如何从段落中识别和提取超链接?

正如您所注意到的,.doc格式不会以最简单的方式存储超链接

超链接将是单个字符,上面有特殊标记。一旦你检测到了它,只需根据引号分割文本


在Apache Tika中有一个很好的例子,请查看的handleSpecialCharacterRuns方法以查看它的完成情况。

在我的例子中,超链接不是单个CharacterRun。我原以为是这样,但事实并非如此。调试时,我看到1个超链接被拆分为2个字符,而不是1:hyperlink“target”,下一次运行时给了我“label”。我会进一步调查此事。感谢您的链接。这可能是POI错误-请确保您使用的是POI 3.8 beta 4(或更新的夜间版本)