Python 从pdf报告中提取财务报表

Python 从pdf报告中提取财务报表,python,pdf-scraping,Python,Pdf Scraping,我一直在尝试以pdf格式提取年度报告中嵌入的财务报表,并使用python将其导出为excel/CSV格式,但我遇到了一些问题: 1.具体的财务报表可以在报告的任何一页上。如果我要处理数百个PDF文件,我必须指定页码,这需要花费很多时间。有没有什么办法让刮刀知道确切的声明在哪里? 2.有些报告跨越多个页面,在抓取pdf后的最终结果不是我想要的 3.不同的年度报告有不同的财务报表格式。有没有办法处理它们并将它们更改为特定的标准格式 如果有人做过类似的事情,并能分享一些例子,我也将不胜感激 Ps我正在

我一直在尝试以pdf格式提取年度报告中嵌入的财务报表,并使用python将其导出为excel/CSV格式,但我遇到了一些问题: 1.具体的财务报表可以在报告的任何一页上。如果我要处理数百个PDF文件,我必须指定页码,这需要花费很多时间。有没有什么办法让刮刀知道确切的声明在哪里? 2.有些报告跨越多个页面,在抓取pdf后的最终结果不是我想要的 3.不同的年度报告有不同的财务报表格式。有没有办法处理它们并将它们更改为特定的标准格式

如果有人做过类似的事情,并能分享一些例子,我也将不胜感激


Ps我正在使用python并使用tabla和Camelot

我有一个类似的案例,问题是从PDF中提取特定的表单信息(姓名、出生日期等)。我使用
tesseract开源软件
pytesseract
对文件执行OCR。因为我不需要整个PDF,而是需要其中的特定信息,所以我设计了一个算法来查找信息:在我的例子中,我使用了简单的启发式方法(特定字段、特定行号和一些其他特定领域的东西),但你也可以使用机器学习方法,训练一个能够找到所需文本部分的分类器。您也可以使用特定领域的启发式方法,因为我确信财务报表有特殊的词汇表或一些文本标记,用于指示其开始/结束。 我希望我至少能给你一些解决这个问题的方法

注意:使用tesseract,您还可以处理多页PDF。机器学习方法需要一些样本才能很好地概括财务报表的样子