Python 从PDF获取字符的边界框

Python 从PDF获取字符的边界框,python,pdf,pdfminer,Python,Pdf,Pdfminer,我已经花了几天的时间来解决这个问题,但是还没有找到一个令人满意的解决方案。本质上,我的目标是从PDF中找到字符的边界框,最终用作OCR系统的训练数据。这意味着我需要从生成的PDF中提取清晰一致的边界框(就像arxiv中的PDF,其中实际上包含文本信息,因此能够使用光标高亮显示)。我主要使用python和PDFMiner 我看到的大多数解决方案目前都比文本行低,我遇到的问题是PDF的结构变化太大,甚至不可靠。我已经能够使用pdftotext通过html获得字符的边界框,但是框的大小不正确,通常会切

我已经花了几天的时间来解决这个问题,但是还没有找到一个令人满意的解决方案。本质上,我的目标是从PDF中找到字符的边界框,最终用作OCR系统的训练数据。这意味着我需要从生成的PDF中提取清晰一致的边界框(就像arxiv中的PDF,其中实际上包含文本信息,因此能够使用光标高亮显示)。我主要使用python和PDFMiner

我看到的大多数解决方案目前都比文本行低,我遇到的问题是PDF的结构变化太大,甚至不可靠。我已经能够使用pdftotext通过html获得字符的边界框,但是框的大小不正确,通常会切断字符的尾端,这对OCR训练至关重要


谢谢

不熟悉PDFMiner,但很多时候边界框都不准确。你能得到实际的字形边界吗?如果能,那么它们会更准确。@bulbus你知道提取字形边界的方法吗?你知道吗?