使用PHP将PDF转换为HTML

使用PHP将PDF转换为HTML,php,html,pdf,xampp,pdf-to-html,Php,Html,Pdf,Xampp,Pdf To Html,我需要将一些pdf文件转换成HTML。我下载了用于PHP的pdftohtml,但我不知道如何使用它。我正在尝试使用以下代码运行它: <?php include 'pdf-to-html-master/src/Gufy/PdfToHtml.php'; $pdf = new \Gufy\PdfToHtml; $pdf->open('1400.pdf'); $pdf->generate(); ?> 这将导致一个空白网页 我需要修改什么?

我需要将一些pdf文件转换成HTML。我下载了用于PHP的pdftohtml,但我不知道如何使用它。我正在尝试使用以下代码运行它:

<?php  
    include 'pdf-to-html-master/src/Gufy/PdfToHtml.php';
    $pdf = new \Gufy\PdfToHtml;
    $pdf->open('1400.pdf');
    $pdf->generate();
?>

这将导致一个空白网页


我需要修改什么?运行此脚本的正确代码是什么?

我使用wkhtmltopdf,它工作正常。您可以从这里下载:

我在Linux中安装了它,使用方式如下:

$url = "https://www.google.com";

$command = "/usr/bin/wkhtmltopdf --load-error-handling ignore --disable-smart-shrinking -T 5mm -B 5mm -L 2mm -R 2mm  --page-size Letter --encoding utf-8 --quiet";

$filename = '[file path].pdf';
if (file_exists($filename)) {
   unlink($filename);
}

$output = shell_exec($command . " $url " . $filename);

echo $output;

希望这有帮助。

第一个选项是使用poppler UTIL

<?php
// if you are using composer, just use this
include 'vendor/autoload.php';
// if not, use this
include 'src/Gufy/PdfToHtml.php';
// initiate 
$pdf = new \Gufy\PdfToHtml;
// opening file
$pdf->open('file.pdf');
// set different output directory for generated html files
$pdf->setOutputDirectory('/your/absolute/directory/path');
// do this if you want to convert in the same directory as file.pdf
$pdf->generate();
// you think your generated files is annoying? simple do this to remove the whole files
$pdf->clearOutputDirectory();
?>

我是软件包的维护者。软件包已更新。您是否已经使用了最新版本?如果您使用的是Windows,请再次阅读文档。另外,请不要直接从github下载,而是使用composer

include 'vendor/autoload.php';

use Gufy\PdfToHtml\Pdf;
    use PHPHtmlParser\Dom;
    use DateTime;
公共函数解析PDF(请求$Request) {

以上代码用于在laravel中将pdf转换为html

Poppler Utils(如果您使用的是Ubuntu发行版,只需从 apt)sudo apt获取安装poppler utils


我希望您在使用此代码之前安装了poppler utils。
sudo apt get install poppler utils
my cmd告诉我,他不知道命令sudot此命令适用于linux机器,因为您在windows上。请检查此处。好的,我有我的poppler for windows目录,但我如何使用它。我不明白。抱歉,现在如果我运行php文件结果还是一个白色页面@varunsinghalis用于转换您上面编写的pdf文件的文件与pdf文件位于同一目录中?我如何放置我的pdf.js目录?它是PDFJS.getDocument('helloworld.pdf')在php文件上编写的唯一指令?以下是关于如何使用pdf.js的示例好的,我这样做了,但我有一个错误:
注意:在C:\xampp\htdocs\parserpdfprova\prova.php的第3行中使用未定义的常量PDFJS-假定为“PDFJS”。致命错误:调用未定义的函数getDocument()在第3行的C:\xampp\htdocs\parserpdfprova\prova.php中
好的,但是如果pdf在其他网站上?好的,所以我想使用jquery脚本,但是感谢您的帮助,但是我在windows上…可以使用?不:)但是您应该只更改wkhtmltopdf的路径,比如
$command=“c:\wamp\wkhtmltopdf——加载错误处理忽略——禁用智能收缩-T 5mm-B 5mm-L 2mm-R 2mm——页面大小的字母——编码utf-8——安静”
OP声称,对于相反的操作,pdf到htmlOP需要pdf到HTML,而不是相反的方式。
include 'vendor/autoload.php';

use Gufy\PdfToHtml\Pdf;
    use PHPHtmlParser\Dom;
    use DateTime;
    $pdf = new Pdf($request->file('csv_file'));
    $html = $pdf->html();
    $dom = new Dom;
    $total_pages = $pdf->getPages();

    if ($total_pages == 1) {
        $html->goToPage(1);            
        $dom->load($html);
        $paragraphs = $dom->find('p');
        $paragraphs = collect($paragraphs);
        foreach($paragraphs as $p){
           $datestring = preg_replace('/\xc2\xa0/', ' ', trim($p->text));
           echo $datestring;
        }
  }
composer require gufy/pdftohtml-php:~2