Python 如何读取某些pdf文件中的所有内容（其中的表格除外）？_Python_Pdf

Python 如何读取某些pdf文件中的所有内容（其中的表格除外）？

python pdf

Python 如何读取某些pdf文件中的所有内容（其中的表格除外）？,python,pdf,Python,Pdf,我想使用python读取pdf文件，但在阅读时我不想将表包含在pdf文件中。我只想要除了那些表以外的所有其他内容我尝试过像PyPDF2和tabla这样的库，但我刚刚找到了提取表或读取包含表的内容的方法我也不想创建一个新文件并在其中添加页面。准确地说，所有内容都应该是列表或字符串的格式，除了表格的内容。最近尝试了这种支持深度学习技术的文档文本提取器工具（这实际上是亚马逊的OCR工具）。当从PDF或图像文件中提取文本时，这将提供更准确的结果有关快速信息，请参阅；有关示例和python S

我想使用python读取pdf文件，但在阅读时我不想将表包含在pdf文件中。我只想要除了那些表以外的所有其他内容

我尝试过像

PyPDF2

和

tabla

这样的库，但我刚刚找到了提取表或读取包含表的内容的方法

我也不想创建一个新文件并在其中添加页面。准确地说，所有内容都应该是

列表

或

字符串

的格式，除了表格的内容。

最近尝试了这种支持深度学习技术的文档文本提取器工具（这实际上是亚马逊的OCR工具）。当从PDF或图像文件中提取文本时，这将提供更准确的结果

有关快速信息，请参阅；

有关示例和python SDK安装的信息，请参阅下文；

有两个函数可以从PDF文件中提取文本，内容是字符串列表，也可以是Table/Forms/KeyValues格式