Itext 从PDF中提取标题和子标题

Itext 从PDF中提取标题和子标题,itext,adobe,pdfbox,Itext,Adobe,Pdfbox,我目前正在从pdf中提取文本。我目前的问题是从摘录的文本中区分标题和副标题。我正在使用iTextSharp并使用粗体文本信息来检测标题。字体大小不能始终受信任。还尝试了PDFBox 1) 我想知道是否有任何方法可以从PDF中识别标题和子标题 2) adobe或pdfExchange editor是否提供了相同的API 例如: 我需要提取 “2040年的旅游业: 带来了额外的一百万访客 每年以“天堂”为标题 “执行摘要”作为分标题 尽管可以使用粗体文本信息提取,但在很多情况下都失败了。这就是寻找

我目前正在从pdf中提取文本。我目前的问题是从摘录的文本中区分标题和副标题。我正在使用iTextSharp并使用粗体文本信息来检测标题。字体大小不能始终受信任。还尝试了PDFBox

1) 我想知道是否有任何方法可以从PDF中识别标题和子标题

2) adobe或pdfExchange editor是否提供了相同的API

例如:

我需要提取

“2040年的旅游业: 带来了额外的一百万访客 每年以“天堂”为标题

“执行摘要”作为分标题

尽管可以使用粗体文本信息提取,但在很多情况下都失败了。这就是寻找API的原因。

“尽管可以使用粗体文本信息提取,但在很多情况下都失败。”-然后,您应该从分析其他情况开始,找到提取所有情况下标题和副标题的策略,并找到确定应用于哪些文档的策略的方法。