Python 如何读取某些pdf文件中的所有内容(其中的表格除外)?

Python 如何读取某些pdf文件中的所有内容(其中的表格除外)?,python,pdf,Python,Pdf,我想使用python读取pdf文件,但在阅读时我不想将表包含在pdf文件中。我只想要除了那些表以外的所有其他内容 我尝试过像PyPDF2和tabla这样的库,但我刚刚找到了提取表或读取包含表的内容的方法 我也不想创建一个新文件并在其中添加页面。准确地说,所有内容都应该是列表或字符串的格式,除了表格的内容。最近尝试了这种支持深度学习技术的文档文本提取器工具(这实际上是亚马逊的OCR工具)。 当从PDF或图像文件中提取文本时,这将提供更准确的结果 有关快速信息,请参阅; 有关示例和python S

我想使用python读取pdf文件,但在阅读时我不想将表包含在pdf文件中。我只想要除了那些表以外的所有其他内容

我尝试过像
PyPDF2
tabla
这样的库,但我刚刚找到了提取表或读取包含表的内容的方法


我也不想创建一个新文件并在其中添加页面。准确地说,所有内容都应该是
列表
字符串
的格式,除了表格的内容。

最近尝试了这种支持深度学习技术的文档文本提取器工具(这实际上是亚马逊的OCR工具)。 当从PDF或图像文件中提取文本时,这将提供更准确的结果

有关快速信息,请参阅;

有关示例和python SDK安装的信息,请参阅下文;

有两个函数可以从PDF文件中提取文本,内容是字符串列表,也可以是Table/Forms/KeyValues格式