Perl 从PDF文件获取文本属性
如何使用或获取文本属性?我需要字体大小和样式信息 类似(来自Perl 从PDF文件获取文本属性,perl,pdf,Perl,Pdf,如何使用或获取文本属性?我需要字体大小和样式信息 类似(来自CAM::PDF) 但是有了文本信息。这些模块可以实现从pdf中提取文本 来自CPAN my $pdf = CAM::PDF->new($filename); my $pageone_tree = $pdf->getPageContentTree(1); print CAM::PDF::PageText->render($pageone_tree); 本模块尝试从PDF页面提取顺序文本。这不是一个健壮的过程
CAM::PDF
)
但是有了文本信息。这些模块可以实现从pdf中提取文本
my $pdf = CAM::PDF->new($filename);
my $pageone_tree = $pdf->getPageContentTree(1);
print CAM::PDF::PageText->render($pageone_tree);
本模块尝试从PDF页面提取顺序文本。这不是一个健壮的过程,因为PDF文本以任意顺序以图形方式排列。本模块使用一些启发式方法尝试猜测哪些文本与其他文本相邻,但可能很容易被下标、非水平文本、字体更改、表单字段等所愚弄
抛开所有这些免责声明不谈,它对于从简单的PDF文件快速转储文本非常有用
更新
多读一点
但也有类似的方法:
$self->getFontNames(pagenum)
以及其他可能证明有用的内容。我不需要纯文本,而是需要具有字体系列、大小或样式等属性的文本。
$self->getFontNames(pagenum)