是否可以使用Python获得每个单词的边界框?

是否可以使用Python获得每个单词的边界框?,python,pdf,Python,Pdf,我知道 pdftotext -bbox foobar.pdf 创建包含以下内容的HTML文件: <word xMin="301.703800" yMin="104.483700" xMax="309.697000" yMax="115.283700">is</word> <word xMin="313.046200" yMin="104.483700" xMax="318.374200" yMax="115.283700">a</word> &l

我知道

pdftotext -bbox foobar.pdf
创建包含以下内容的HTML文件:

<word xMin="301.703800" yMin="104.483700" xMax="309.697000" yMax="115.283700">is</word>
<word xMin="313.046200" yMin="104.483700" xMax="318.374200" yMax="115.283700">a</word>
<word xMin="321.603400" yMin="104.483700" xMax="365.509000" yMax="115.283700">universal</word>
<word xMin="368.858200" yMin="104.483700" xMax="384.821800" yMax="115.283700">file</word>
<word xMin="388.291000" yMin="104.483700" xMax="420.229000" yMax="115.283700">format</word>
是
A.
普遍的
文件
格式
因此,每个单词都有一个边界框

相比之下,Python包PDFminer似乎只能给出文本块的位置(请参阅)

如何获取Python中每个单词的边界框