Python 如何检测PDF中的选项卡?

Python 如何检测PDF中的选项卡?,python,python-3.x,xml,pdf,docx,Python,Python 3.x,Xml,Pdf,Docx,例如,假设我想将此PDF中的所有子句提取到单个excel单元格中。 如果我每次都能检测到标签,即图中显示的子句编号和文本之间的空格,我想这会检测到PDF中每个子句的开头,我可以提取子句开头之间的所有文本 我尝试过PythonPDF阅读器,我尝试过将pdf转换成word文档,然后使用PythonDocx阅读器。不过,我一直无法在PDF中始终检测到如此清晰的标签。 有人知道我是如何做到这一点的吗?我建议你询问如何做到这一点,而不仅仅是询问是否可行。问“我从哪里开始”也是一个非常广泛的问题,可能也

例如,假设我想将此PDF中的所有子句提取到单个excel单元格中。

如果我每次都能检测到标签,即图中显示的子句编号和文本之间的空格,我想这会检测到PDF中每个子句的开头,我可以提取子句开头之间的所有文本

我尝试过PythonPDF阅读器,我尝试过将pdf转换成word文档,然后使用PythonDocx阅读器。不过,我一直无法在PDF中始终检测到如此清晰的标签。
有人知道我是如何做到这一点的吗?

我建议你询问如何做到这一点,而不仅仅是询问是否可行。问“我从哪里开始”也是一个非常广泛的问题,可能也不适合这个网站。好吧,当然,我已经稍微改写了我的问题。^你认为我应该在另一个网站上发布这个吗?这肯定会有帮助,你现在问的问题更清楚了。我认为这是一个正确的网站,但你永远不能保证100%得到回应。如果没有,请参见此处:PDF中没有“选项卡”。这是一个文字处理器的概念。只有空间(x,y)信息。啊,好的。你知道我如何提取这些空间信息吗?