Itext 获取PDF页面标题_Itext - Fatal编程技术网

Itext 获取PDF页面标题

itext

Itext 获取PDF页面标题,itext,Itext,是否可以通过iText获取页面标题 PdfTextExtractor返回页面中的所有文本，但我不知道标题是哪一行。此外，标题可能包含多行我不知道标题的坐标，因此无法使用RegionExtranderFilter 我可以尝试分析字体大小并使用最大字体的行，但TextRenderInfo不提供对gs的公共访问（专用最终图形状态gs）还有其他想法吗页面内的PDF没有标题，它们只是文本刚好是粗体或大字体，并出现在一个你认为比其他文本“更高级”的区域。听起来你已经知道了，我只是需要弄清楚查看显

是否可以通过

iText

获取页面标题

```
PdfTextExtractor
```
返回页面中的所有文本，但我不知道标题是哪一行。此外，标题可能包含多行
我不知道标题的坐标，因此无法使用
```
RegionExtranderFilter
```
我可以尝试分析字体大小并使用最大字体的行，但TextRenderInfo不提供对gs的公共访问（
```
专用最终图形状态gs
```
）
还有其他想法吗

页面内的PDF没有标题，它们只是文本刚好是粗体或大字体，并出现在一个你认为比其他文本“更高级”的区域。听起来你已经知道了，我只是需要弄清楚

查看显示如何通过子类化

itextractionstrategy

获取字体信息的内容。我的示例以iTextSharp为目标，它是iText的.Net端口，但它们几乎匹配不同的功能。最大的区别是Java使用了

getXXX

和

setXXX

，而.Net只使用了

XXX

。否则一切都会好起来的

这个故事的寓意是，您必须编写一些任意规则来定义您认为的“标题”，然后根据这些规则进行解析