Perl 如何提取PDF年度报告的叙述性部分以进行文本分析？_Perl

Perl 如何提取PDF年度报告的叙述性部分以进行文本分析？

perl

Perl 如何提取PDF年度报告的叙述性部分以进行文本分析？,perl,Perl,作为我学士学位论文的一部分，我想比较使用FOG指数的SFCR报告和保险公司的IFRS报告。报告以PDF格式提供我想使用Perl中的Fathom包，但为此，我需要txt格式的财务报表的叙述区域。你知道我不必手动复制所有内容，这怎么行吗提前谢谢 Python模块可用于提取所有文本（以及图形和表格中的文本）：这会将提取的文本保存到report2.txt。注意，我使用了示例PDF文件aegon-integrated-annual-report-2019.PDF。这个文件被证明是加密的，pdf2tx

作为我学士学位论文的一部分，我想比较使用FOG指数的SFCR报告和保险公司的IFRS报告。报告以PDF格式提供

我想使用Perl中的Fathom包，但为此，我需要txt格式的财务报表的叙述区域。你知道我不必手动复制所有内容，这怎么行吗

提前谢谢

Python模块可用于提取所有文本（以及图形和表格中的文本）：

这会将提取的文本保存到

report2.txt

。注意，我使用了示例PDF文件

aegon-integrated-annual-report-2019.PDF

。这个文件被证明是加密的，

pdf2txt.py

拒绝处理它，但幸运的是

qpdf

能够如上所示对其进行解密。

你能给出一个报告的例子吗，例如提供一个PDF文件的链接？当然！在以下链接中，您可以找到综合年度报告以及SFCR报告。谢谢，您想提取报告的哪一部分？例如，对于上面链接到

aegon-integrated-annual-report-2019.pdf

，哪些页面？嘿，Håkon，我想将所有叙述区域提取为原始文本，或者换句话说：所有表格、图表、标题和图像都应该删除。

$ pip install pdfminer
$ qpdf --decrypt --password='' report.pdf report2.pdf
$ pdf2txt.py -o report2.txt report2.pdf