从PDF中提取实际的文本标题

从PDF中提取实际的文本标题,pdf,title,extraction,Pdf,Title,Extraction,从PDF中提取标题(使用其元数据)似乎有很多问题。然而,元数据中似乎不存在大多数标题。我在使用时发现了这一点 是否确实存在从pdf中检索文本标题的方法?我试图导出到一个文本文件,然后搜索,但没有一致的格式。有没有办法将pdf格式导出到文档中,然后检查字体大小>=14?这是一个非常好的问题。创建PDF的应用程序似乎对可用的元数据字段没有任何用处 以pdflatex为例:即使在序言中设置\title{…}和\author{…},此信息也不会反映在元数据中。快速搜索后,解决方案似乎是在序言中引入一个块

从PDF中提取标题(使用其元数据)似乎有很多问题。然而,元数据中似乎不存在大多数标题。我在使用时发现了这一点


是否确实存在从pdf中检索文本标题的方法?我试图导出到一个文本文件,然后搜索,但没有一致的格式。有没有办法将pdf格式导出到文档中,然后检查字体大小>=14?

这是一个非常好的问题。创建PDF的应用程序似乎对可用的元数据字段没有任何用处

以pdflatex为例:即使在序言中设置\title{…}和\author{…},此信息也不会反映在元数据中。快速搜索后,解决方案似乎是在序言中引入一个块,该块由pdflatex[1]只读:

…然后将其放置在PDF的相关元数据字段中。但奇怪的是,这是必要的

我不能为像word或Writer这样的文字处理器说话。我们假定这样的元数据字段必须由用户手动设置

如果PDF不是由您生成的,那么启发式方法可能是解决问题的唯一方法。[2] 看起来它的功能与您想要的类似,但我想这取决于PDF的发布情况——这个工具似乎是面向科学论文的

我希望这至少是一些帮助

[1]
[2]

继续探索,我发现了另一个有点相关的SO问题(),它链接到一个名为pdfssa4met()的工具,这个工具似乎很有前途。请参阅
\pdfinfo
{
  /Title{...}
  /Author{...}
  ...
}