Python 从PDF获取字符的边界框_Python_Pdf_Pdfminer

Python 从PDF获取字符的边界框

python pdf

Python 从PDF获取字符的边界框,python,pdf,pdfminer,Python,Pdf,Pdfminer,我已经花了几天的时间来解决这个问题，但是还没有找到一个令人满意的解决方案。本质上，我的目标是从PDF中找到字符的边界框，最终用作OCR系统的训练数据。这意味着我需要从生成的PDF中提取清晰一致的边界框（就像arxiv中的PDF，其中实际上包含文本信息，因此能够使用光标高亮显示）。我主要使用python和PDFMiner 我看到的大多数解决方案目前都比文本行低，我遇到的问题是PDF的结构变化太大，甚至不可靠。我已经能够使用pdftotext通过html获得字符的边界框，但是框的大小不正确，通常会切

我已经花了几天的时间来解决这个问题，但是还没有找到一个令人满意的解决方案。本质上，我的目标是从PDF中找到字符的边界框，最终用作OCR系统的训练数据。这意味着我需要从生成的PDF中提取清晰一致的边界框（就像arxiv中的PDF，其中实际上包含文本信息，因此能够使用光标高亮显示）。我主要使用python和PDFMiner

我看到的大多数解决方案目前都比文本行低，我遇到的问题是PDF的结构变化太大，甚至不可靠。我已经能够使用pdftotext通过html获得字符的边界框，但是框的大小不正确，通常会切断字符的尾端，这对OCR训练至关重要

谢谢

不熟悉PDFMiner，但很多时候边界框都不准确。你能得到实际的字形边界吗？如果能，那么它们会更准确。@bulbus你知道提取字形边界的方法吗？你知道吗？