在python中读取pdf类似表格的结构（不是精确的表格），并将其提取为任何文件格式我有一个PDF文件，其中中间的页面充满了测量。我看起来像一张桌子，但没有完全与线条对齐。我希望以与查看csv或Excel文件相同的方式提取数据_Python_Pdf_Reader

在python中读取pdf类似表格的结构（不是精确的表格），并将其提取为任何文件格式我有一个PDF文件，其中中间的页面充满了测量。我看起来像一张桌子，但没有完全与线条对齐。我希望以与查看csv或Excel文件相同的方式提取数据

python pdf

在python中读取pdf类似表格的结构（不是精确的表格），并将其提取为任何文件格式我有一个PDF文件，其中中间的页面充满了测量。我看起来像一张桌子，但没有完全与线条对齐。我希望以与查看csv或Excel文件相同的方式提取数据,python,pdf,reader,Python,Pdf,Reader,Pdf文件数据示例： column1 column2 column3 column4 1 0.05 2.01 3.09 2 5.05 4.01 6.03 3 7.01 8.02 1.00 pdf数据中没有对齐。它不像表中那样用符号行分开。那么哪个模块更适合使用它将其导出为Excel或csv？您可以使用textract来实现这一点，但这也取决于文件它支持多种类型的文件，包括PDF import textract

Pdf文件数据示例：

column1 column2 column3 column4
1       0.05    2.01    3.09   
2       5.05    4.01    6.03
3       7.01    8.02    1.00

pdf数据中没有对齐。它不像表中那样用符号行分开。那么哪个模块更适合使用它将其导出为Excel或csv？

您可以使用textract来实现这一点，但这也取决于文件

它支持多种类型的文件，包括PDF

import textract
text = textract.process("path/to/file.pdf")

使用PyPDF2，这里是链接。打印出内容，然后看看如何进一步处理它。如果你被卡住了，发布一个问题这个在线工具如何处理你的文件（选择另存为HTML查看提取）？：我发现了一个非常有用的模块，解决了我可以用许多库提取的问题。但是pdf数据格式不太可能，因为它没有像文本一样的段落或像表格一样的行。因此，如果我提取它，它似乎不是以表的形式出现