Python 从pdf报告中提取财务报表_Python_Pdf Scraping

Python 从pdf报告中提取财务报表

python

Python 从pdf报告中提取财务报表,python,pdf-scraping,Python,Pdf Scraping,我一直在尝试以pdf格式提取年度报告中嵌入的财务报表，并使用python将其导出为excel/CSV格式，但我遇到了一些问题： 1.具体的财务报表可以在报告的任何一页上。如果我要处理数百个PDF文件，我必须指定页码，这需要花费很多时间。有没有什么办法让刮刀知道确切的声明在哪里？ 2.有些报告跨越多个页面，在抓取pdf后的最终结果不是我想要的 3.不同的年度报告有不同的财务报表格式。有没有办法处理它们并将它们更改为特定的标准格式如果有人做过类似的事情，并能分享一些例子，我也将不胜感激 Ps我正在

我一直在尝试以pdf格式提取年度报告中嵌入的财务报表，并使用python将其导出为excel/CSV格式，但我遇到了一些问题： 1.具体的财务报表可以在报告的任何一页上。如果我要处理数百个PDF文件，我必须指定页码，这需要花费很多时间。有没有什么办法让刮刀知道确切的声明在哪里？ 2.有些报告跨越多个页面，在抓取pdf后的最终结果不是我想要的 3.不同的年度报告有不同的财务报表格式。有没有办法处理它们并将它们更改为特定的标准格式

如果有人做过类似的事情，并能分享一些例子，我也将不胜感激

Ps我正在使用python并使用tabla和Camelot

我有一个类似的案例，问题是从PDF中提取特定的表单信息（姓名、出生日期等）。我使用

tesseract开源软件和pytesseract对文件执行OCR。因为我不需要整个PDF，而是需要其中的特定信息，所以我设计了一个算法来查找信息：在我的例子中，我使用了简单的启发式方法（特定字段、特定行号和一些其他特定领域的东西），但你也可以使用机器学习方法，训练一个能够找到所需文本部分的分类器。您也可以使用特定领域的启发式方法，因为我确信财务报表有特殊的词汇表或一些文本标记，用于指示其开始/结束。
我希望我至少能给你一些解决这个问题的方法
注意：使用tesseract，您还可以处理多页PDF。机器学习方法需要一些样本才能很好地概括财务报表的样子