Itext 获取PDF页面标题
是否可以通过Itext 获取PDF页面标题,itext,Itext,是否可以通过iText获取页面标题 PdfTextExtractor返回页面中的所有文本,但我不知道标题是哪一行。此外,标题可能包含多行 我不知道标题的坐标,因此无法使用RegionExtranderFilter 我可以尝试分析字体大小并使用最大字体的行,但TextRenderInfo不提供对gs的公共访问(专用最终图形状态gs) 还有其他想法吗 页面内的PDF没有标题,它们只是文本刚好是粗体或大字体,并出现在一个你认为比其他文本“更高级”的区域。听起来你已经知道了,我只是需要弄清楚 查看显
iText
获取页面标题
返回页面中的所有文本,但我不知道标题是哪一行。此外,标题可能包含多行PdfTextExtractor
- 我不知道标题的坐标,因此无法使用
RegionExtranderFilter
- 我可以尝试分析字体大小并使用最大字体的行,但TextRenderInfo不提供对gs的公共访问(
)专用最终图形状态gs
- 还有其他想法吗
itextractionstrategy
获取字体信息的内容。我的示例以iTextSharp为目标,它是iText的.Net端口,但它们几乎匹配不同的功能。最大的区别是Java使用了getXXX
和setXXX
,而.Net只使用了XXX
。否则一切都会好起来的
这个故事的寓意是,您必须编写一些任意规则来定义您认为的“标题”,然后根据这些规则进行解析