Php 将PDF转换为字符串

Php 将PDF转换为字符串,php,pdf,file-conversion,Php,Pdf,File Conversion,如何读取PDF文件并将内容放入字符串?使用PHP语言。您可以使用类似于linux上Xpdf包附带的pdftotext的东西。然后,可以使用popen命令将pdftotext的输出管道化为字符串: $mystring = ""; $fd = popen("/usr/bin/pdftotext blah.pdf","r"); if ($fd) { while (($myline = fgets($fd)) !== false) { $mystring .= $myline;

如何读取PDF文件并将内容放入字符串?使用PHP语言。

您可以使用类似于linux上Xpdf包附带的pdftotext的东西。然后,可以使用popen命令将pdftotext的输出管道化为字符串:

$mystring = "";
$fd = popen("/usr/bin/pdftotext blah.pdf","r");
if ($fd) {
    while (($myline = fgets($fd)) !== false) {
        $mystring .= $myline;
    }
}

我发现这门课很好!此外,您还可以添加功能以满足您的需要

这些可能会帮助您添加功能:


如果不起作用,请检查在Adobe Reader中打开时是否可以高亮显示/标记文本(如果不能,则文件中的文本可能保存为几何曲线),同时检查编码。

在服务器上安装APACHE-TIKA。 APACHE-TIKA支持的文件多于pdf文件。 安装指南:

最后的代码很简单:

$string = "";
$fd = popen("java -jar yourpathtotika/tika-app-1.3.jar -t yourpathtopdf/sample.pdf","r");
while (!feof($fd)) { 
$buffer = fgets($fd, 4096); 
$string .= $buffer;
}
echo $string;

您可以使用此处提供的PHP类:

这是一个完全用纯PHP编写的公共域PDF文本提取器,这意味着您不需要依赖外部命令。它提供了检索文本的简单界面:

include ( 'PdfToText.phpclass' ) ;
$pdf = new PdfToText ( 'mysample.pdf' ) ;
echo "PDF contents are : " . $pdf -> Text . "\n" ;

如果您需要原始二进制数据或更新您的问题并告诉我们您真正想要什么,请使用。您可能会发现本教程很有用:我需要从pdf文件中获取干净的文本。当我从pdf文件中获取文本时,我需要在DB中插入此文本。xpdf的下载链接:和popen的链接:死链接,你的意思是?我找不到你说的那门课这个脚本对我不适用