Pdf 任何不基于OCR的通用布局分析库或工具?

Pdf 任何不基于OCR的通用布局分析库或工具?,pdf,image-processing,Pdf,Image Processing,我正在寻找布局分析库或工具(最好是开源的),可以应用于文本PDF,以识别主要文本内容与侧栏、章节标题、章节标题(甚至可能是带有装饰/阴影和下划线的奇特标题)我遇到了像OCRopus这样的工具,它使用OCR和图像识别来识别版面。有没有图书馆可以在没有OCR的情况下做同样的事情?可以从文本PDF中提取文本和图像,并向工具提供包含文本和图像位置的输入;对这样的文件使用OCR是相当迂回的。我也不知道有这样的独立库(如不依赖OCR或图像处理),但您应该能够使用OCRopus或OCRFeeder()的布局检

我正在寻找布局分析库或工具(最好是开源的),可以应用于文本PDF,以识别主要文本内容与侧栏、章节标题、章节标题(甚至可能是带有装饰/阴影和下划线的奇特标题)我遇到了像OCRopus这样的工具,它使用OCR和图像识别来识别版面。有没有图书馆可以在没有OCR的情况下做同样的事情?可以从文本PDF中提取文本和图像,并向工具提供包含文本和图像位置的输入;对这样的文件使用OCR是相当迂回的。

我也不知道有这样的独立库(如不依赖OCR或图像处理),但您应该能够使用OCRopus或OCRFeeder()的布局检测部件。你看过后者了吗?显然,它设计用于几乎任何标准的OCR引擎,这意味着仅版面分析部分就可以通过创建您自己的“虚拟OCR”来使用,该“虚拟OCR”根据您的自定义逻辑(而不是任何真实的图像处理)提取数据,并将其传递给OCR Feeder。

谢谢。顺便说一句,我也碰巧在发布这个问题后遇到了OCRFeeder,尽管我还没有尝试使用它。