Php 如何从PDF文档中提取文本?

Php 如何从PDF文档中提取文本?,php,pdf,text,unicode,Php,Pdf,Text,Unicode,如何使用PHP从PDF文档中提取文本 我不能使用其他工具,我没有根访问权限 我发现一些函数适用于纯文本,但它们不能很好地处理Unicode字符: 下载class.pdf2text.php@或进行必要的注册 代码: class.pdf2text.php pdf2textclass不适用于我测试过的所有PDF,如果它不适用于您,请尝试 我知道这个话题已经很老了,但这种需求仍然存在。 我阅读了许多文档、论坛和脚本,并构建了一个支持压缩和未压缩pdf的新高级文档: 希望它对everone有所帮助如果pd

如何使用PHP从PDF文档中提取文本

我不能使用其他工具,我没有根访问权限

我发现一些函数适用于纯文本,但它们不能很好地处理Unicode字符:

下载class.pdf2text.php@或进行必要的注册

代码:

class.pdf2text.php

pdf2textclass不适用于我测试过的所有PDF,如果它不适用于您,请尝试


我知道这个话题已经很老了,但这种需求仍然存在。 我阅读了许多文档、论坛和脚本,并构建了一个支持压缩和未压缩pdf的新高级文档:


希望它对everone有所帮助

如果pdf文件中有任何表格,则不会显示。我想提取,因为它是在pdf中显示,也与pdf附加扫描图像的文本。有什么解决办法吗?非常感谢。。。那门课很有用。在这里,我只需要一个来自pdf的url。有没有办法找到…?该类包含一个输出缓冲区刷新,它可能导致“headers ready sent”错误。如果您对任何合理大小的文档禁用该类,似乎都不会产生不良影响。是的,该类并不能为所有人工作。你还有其他建议吗?你可以试试。链接不起作用!请纠正!我不明白为什么这个问题被认为是离题的,因为它非常有用,即使它可能会吸引“固执己见”的答案,但最好看到不同的观点。也有很多点击率。你的脚本似乎没有得到输出。你有可以测试的PDF文件吗?这对我很有用!谢谢,我在这里找到了一个很好的版本:你也可以使用这个PHP库:对composer有问题的人,我在这里上传了一个zip文件中的完美工作版本
include('class.pdf2text.php');
$a = new PDF2Text();
$a->setFilename('filename.pdf'); 
$a->decodePDF();
echo $a->output();