在python中读取pdf类似表格的结构(不是精确的表格),并将其提取为任何文件格式 我有一个PDF文件,其中中间的页面充满了测量。我看起来像一张桌子,但没有完全与线条对齐。我希望以与查看csv或Excel文件相同的方式提取数据

在python中读取pdf类似表格的结构(不是精确的表格),并将其提取为任何文件格式 我有一个PDF文件,其中中间的页面充满了测量。我看起来像一张桌子,但没有完全与线条对齐。我希望以与查看csv或Excel文件相同的方式提取数据,python,pdf,reader,Python,Pdf,Reader,Pdf文件数据示例: column1 column2 column3 column4 1 0.05 2.01 3.09 2 5.05 4.01 6.03 3 7.01 8.02 1.00 pdf数据中没有对齐。它不像表中那样用符号行分开。那么哪个模块更适合使用它将其导出为Excel或csv?您可以使用textract来实现这一点,但这也取决于文件 它支持多种类型的文件,包括PDF import textract

Pdf文件数据示例:

column1 column2 column3 column4
1       0.05    2.01    3.09   
2       5.05    4.01    6.03
3       7.01    8.02    1.00

pdf数据中没有对齐。它不像表中那样用符号行分开。那么哪个模块更适合使用它将其导出为Excel或csv?

您可以使用textract来实现这一点,但这也取决于文件

  • 它支持多种类型的文件,包括PDF

    import textract
    text = textract.process("path/to/file.pdf")
    

    使用PyPDF2,这里是链接。打印出内容,然后看看如何进一步处理它。如果你被卡住了,发布一个问题这个在线工具如何处理你的文件(选择另存为HTML查看提取)?:我发现了一个非常有用的模块,解决了我可以用许多库提取的问题。但是pdf数据格式不太可能,因为它没有像文本一样的段落或像表格一样的行。因此,如果我提取它,它似乎不是以表的形式出现