使用PHP将PDF转换为HTML
我需要将一些pdf文件转换成HTML。我下载了用于PHP的pdftohtml,但我不知道如何使用它。我正在尝试使用以下代码运行它:使用PHP将PDF转换为HTML,php,html,pdf,xampp,pdf-to-html,Php,Html,Pdf,Xampp,Pdf To Html,我需要将一些pdf文件转换成HTML。我下载了用于PHP的pdftohtml,但我不知道如何使用它。我正在尝试使用以下代码运行它: <?php include 'pdf-to-html-master/src/Gufy/PdfToHtml.php'; $pdf = new \Gufy\PdfToHtml; $pdf->open('1400.pdf'); $pdf->generate(); ?> 这将导致一个空白网页 我需要修改什么?
<?php
include 'pdf-to-html-master/src/Gufy/PdfToHtml.php';
$pdf = new \Gufy\PdfToHtml;
$pdf->open('1400.pdf');
$pdf->generate();
?>
这将导致一个空白网页
我需要修改什么?运行此脚本的正确代码是什么?我使用wkhtmltopdf,它工作正常。您可以从这里下载: 我在Linux中安装了它,使用方式如下:
$url = "https://www.google.com";
$command = "/usr/bin/wkhtmltopdf --load-error-handling ignore --disable-smart-shrinking -T 5mm -B 5mm -L 2mm -R 2mm --page-size Letter --encoding utf-8 --quiet";
$filename = '[file path].pdf';
if (file_exists($filename)) {
unlink($filename);
}
$output = shell_exec($command . " $url " . $filename);
echo $output;
希望这有帮助。第一个选项是使用poppler UTIL
<?php
// if you are using composer, just use this
include 'vendor/autoload.php';
// if not, use this
include 'src/Gufy/PdfToHtml.php';
// initiate
$pdf = new \Gufy\PdfToHtml;
// opening file
$pdf->open('file.pdf');
// set different output directory for generated html files
$pdf->setOutputDirectory('/your/absolute/directory/path');
// do this if you want to convert in the same directory as file.pdf
$pdf->generate();
// you think your generated files is annoying? simple do this to remove the whole files
$pdf->clearOutputDirectory();
?>
我是软件包的维护者。软件包已更新。您是否已经使用了最新版本?如果您使用的是Windows,请再次阅读文档。另外,请不要直接从github下载,而是使用composer
include 'vendor/autoload.php';
use Gufy\PdfToHtml\Pdf;
use PHPHtmlParser\Dom;
use DateTime;
公共函数解析PDF(请求$Request)
{
以上代码用于在laravel中将pdf转换为html
Poppler Utils(如果您使用的是Ubuntu发行版,只需从
apt)sudo apt获取安装poppler utils
我希望您在使用此代码之前安装了poppler utils。
sudo apt get install poppler utils
my cmd告诉我,他不知道命令sudot此命令适用于linux机器,因为您在windows上。请检查此处。好的,我有我的poppler for windows目录,但我如何使用它。我不明白。抱歉,现在如果我运行php文件结果还是一个白色页面@varunsinghalis用于转换您上面编写的pdf文件的文件与pdf文件位于同一目录中?我如何放置我的pdf.js目录?它是PDFJS.getDocument('helloworld.pdf')在php文件上编写的唯一指令?以下是关于如何使用pdf.js的示例好的,我这样做了,但我有一个错误:注意:在C:\xampp\htdocs\parserpdfprova\prova.php的第3行中使用未定义的常量PDFJS-假定为“PDFJS”。致命错误:调用未定义的函数getDocument()在第3行的C:\xampp\htdocs\parserpdfprova\prova.php中
好的,但是如果pdf在其他网站上?好的,所以我想使用jquery脚本,但是感谢您的帮助,但是我在windows上…可以使用?不:)但是您应该只更改wkhtmltopdf的路径,比如$command=“c:\wamp\wkhtmltopdf——加载错误处理忽略——禁用智能收缩-T 5mm-B 5mm-L 2mm-R 2mm——页面大小的字母——编码utf-8——安静”
OP声称,对于相反的操作,pdf到htmlOP需要pdf到HTML,而不是相反的方式。
include 'vendor/autoload.php';
use Gufy\PdfToHtml\Pdf;
use PHPHtmlParser\Dom;
use DateTime;
$pdf = new Pdf($request->file('csv_file'));
$html = $pdf->html();
$dom = new Dom;
$total_pages = $pdf->getPages();
if ($total_pages == 1) {
$html->goToPage(1);
$dom->load($html);
$paragraphs = $dom->find('p');
$paragraphs = collect($paragraphs);
foreach($paragraphs as $p){
$datestring = preg_replace('/\xc2\xa0/', ' ', trim($p->text));
echo $datestring;
}
}
composer require gufy/pdftohtml-php:~2