Perl 如何提取PDF年度报告的叙述性部分以进行文本分析?

Perl 如何提取PDF年度报告的叙述性部分以进行文本分析?,perl,Perl,作为我学士学位论文的一部分,我想比较使用FOG指数的SFCR报告和保险公司的IFRS报告。报告以PDF格式提供 我想使用Perl中的Fathom包,但为此,我需要txt格式的财务报表的叙述区域。你知道我不必手动复制所有内容,这怎么行吗 提前谢谢 Python模块可用于提取所有文本(以及图形和表格中的文本): 这会将提取的文本保存到report2.txt。注意,我使用了示例PDF文件aegon-integrated-annual-report-2019.PDF。这个文件被证明是加密的,pdf2tx

作为我学士学位论文的一部分,我想比较使用FOG指数的SFCR报告和保险公司的IFRS报告。报告以PDF格式提供

我想使用Perl中的Fathom包,但为此,我需要txt格式的财务报表的叙述区域。你知道我不必手动复制所有内容,这怎么行吗

提前谢谢

Python模块可用于提取所有文本(以及图形和表格中的文本):


这会将提取的文本保存到
report2.txt
。注意,我使用了示例PDF文件
aegon-integrated-annual-report-2019.PDF
。这个文件被证明是加密的,
pdf2txt.py
拒绝处理它,但幸运的是
qpdf
能够如上所示对其进行解密。

你能给出一个报告的例子吗,例如提供一个PDF文件的链接?当然!在以下链接中,您可以找到综合年度报告以及SFCR报告。谢谢,您想提取报告的哪一部分?例如,对于上面链接到
aegon-integrated-annual-report-2019.pdf
,哪些页面?嘿,Håkon,我想将所有叙述区域提取为原始文本,或者换句话说:所有表格、图表、标题和图像都应该删除。
$ pip install pdfminer
$ qpdf --decrypt --password='' report.pdf report2.pdf
$ pdf2txt.py -o report2.txt report2.pdf