Pdf 任何不基于OCR的通用布局分析库或工具？_Pdf_Image Processing

Pdf 任何不基于OCR的通用布局分析库或工具？

pdf image-processing

Pdf 任何不基于OCR的通用布局分析库或工具？,pdf,image-processing,Pdf,Image Processing,我正在寻找布局分析库或工具（最好是开源的），可以应用于文本PDF，以识别主要文本内容与侧栏、章节标题、章节标题（甚至可能是带有装饰/阴影和下划线的奇特标题）我遇到了像OCRopus这样的工具，它使用OCR和图像识别来识别版面。有没有图书馆可以在没有OCR的情况下做同样的事情？可以从文本PDF中提取文本和图像，并向工具提供包含文本和图像位置的输入；对这样的文件使用OCR是相当迂回的。我也不知道有这样的独立库（如不依赖OCR或图像处理），但您应该能够使用OCRopus或OCRFeeder（）的布局检

我正在寻找布局分析库或工具（最好是开源的），可以应用于文本PDF，以识别主要文本内容与侧栏、章节标题、章节标题（甚至可能是带有装饰/阴影和下划线的奇特标题）我遇到了像OCRopus这样的工具，它使用OCR和图像识别来识别版面。有没有图书馆可以在没有OCR的情况下做同样的事情？可以从文本PDF中提取文本和图像，并向工具提供包含文本和图像位置的输入；对这样的文件使用OCR是相当迂回的。

我也不知道有这样的独立库（如不依赖OCR或图像处理），但您应该能够使用OCRopus或OCRFeeder（）的布局检测部件。你看过后者了吗？显然，它设计用于几乎任何标准的OCR引擎，这意味着仅版面分析部分就可以通过创建您自己的“虚拟OCR”来使用，该“虚拟OCR”根据您的自定义逻辑（而不是任何真实的图像处理）提取数据，并将其传递给OCR Feeder。

谢谢。顺便说一句，我也碰巧在发布这个问题后遇到了OCRFeeder，尽管我还没有尝试使用它。