Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/perl/9.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Perl 从PDF文件获取文本属性_Perl_Pdf - Fatal编程技术网

Perl 从PDF文件获取文本属性

Perl 从PDF文件获取文本属性,perl,pdf,Perl,Pdf,如何使用或获取文本属性?我需要字体大小和样式信息 类似(来自CAM::PDF) 但是有了文本信息。这些模块可以实现从pdf中提取文本 来自CPAN my $pdf = CAM::PDF->new($filename); my $pageone_tree = $pdf->getPageContentTree(1); print CAM::PDF::PageText->render($pageone_tree); 本模块尝试从PDF页面提取顺序文本。这不是一个健壮的过程

如何使用或获取文本属性?我需要字体大小和样式信息

类似(来自
CAM::PDF


但是有了文本信息。

这些模块可以实现从pdf中提取文本

来自CPAN

my $pdf = CAM::PDF->new($filename);
my $pageone_tree = $pdf->getPageContentTree(1);
print CAM::PDF::PageText->render($pageone_tree);
本模块尝试从PDF页面提取顺序文本。这不是一个健壮的过程,因为PDF文本以任意顺序以图形方式排列。本模块使用一些启发式方法尝试猜测哪些文本与其他文本相邻,但可能很容易被下标、非水平文本、字体更改、表单字段等所愚弄

抛开所有这些免责声明不谈,它对于从简单的PDF文件快速转储文本非常有用

更新

多读一点

但也有类似的方法:

$self->getFontNames(pagenum)

以及其他可能证明有用的内容。

我不需要纯文本,而是需要具有字体系列、大小或样式等属性的文本。
$self->getFontNames(pagenum)