Itext 获取PDF页面标题

Itext 获取PDF页面标题,itext,Itext,是否可以通过iText获取页面标题 PdfTextExtractor返回页面中的所有文本,但我不知道标题是哪一行。此外,标题可能包含多行 我不知道标题的坐标,因此无法使用RegionExtranderFilter 我可以尝试分析字体大小并使用最大字体的行,但TextRenderInfo不提供对gs的公共访问(专用最终图形状态gs) 还有其他想法吗 页面内的PDF没有标题,它们只是文本刚好是粗体或大字体,并出现在一个你认为比其他文本“更高级”的区域。听起来你已经知道了,我只是需要弄清楚 查看显

是否可以通过
iText
获取页面标题

  • PdfTextExtractor
    返回页面中的所有文本,但我不知道标题是哪一行。此外,标题可能包含多行
  • 我不知道标题的坐标,因此无法使用
    RegionExtranderFilter
  • 我可以尝试分析字体大小并使用最大字体的行,但TextRenderInfo不提供对gs的公共访问(
    专用最终图形状态gs
  • 还有其他想法吗

页面内的PDF没有标题,它们只是文本刚好是粗体或大字体,并出现在一个你认为比其他文本“更高级”的区域。听起来你已经知道了,我只是需要弄清楚

查看显示如何通过子类化
itextractionstrategy
获取字体信息的内容。我的示例以iTextSharp为目标,它是iText的.Net端口,但它们几乎匹配不同的功能。最大的区别是Java使用了
getXXX
setXXX
,而.Net只使用了
XXX
。否则一切都会好起来的

这个故事的寓意是,您必须编写一些任意规则来定义您认为的“标题”,然后根据这些规则进行解析