是否可以使用Python获得每个单词的边界框？_Python_Pdf

是否可以使用Python获得每个单词的边界框？

python pdf

是否可以使用Python获得每个单词的边界框？,python,pdf,Python,Pdf,我知道 pdftotext -bbox foobar.pdf 创建包含以下内容的HTML文件： <word xMin="301.703800" yMin="104.483700" xMax="309.697000" yMax="115.283700">is</word> <word xMin="313.046200" yMin="104.483700" xMax="318.374200" yMax="115.283700">a</word> &l

我知道

pdftotext -bbox foobar.pdf

创建包含以下内容的HTML文件：

<word xMin="301.703800" yMin="104.483700" xMax="309.697000" yMax="115.283700">is</word>
<word xMin="313.046200" yMin="104.483700" xMax="318.374200" yMax="115.283700">a</word>
<word xMin="321.603400" yMin="104.483700" xMax="365.509000" yMax="115.283700">universal</word>
<word xMin="368.858200" yMin="104.483700" xMax="384.821800" yMax="115.283700">file</word>
<word xMin="388.291000" yMin="104.483700" xMax="420.229000" yMax="115.283700">format</word>

是
A.
普遍的
文件
格式

因此，每个单词都有一个边界框

相比之下，Python包PDFminer似乎只能给出文本块的位置（请参阅）

如何获取Python中每个单词的边界框